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了 路 


前 


当前 ， 以 数字 图 像 与 视频 处 理 技术 为 核心 的 网 络 视频 、 智 能 视频 分 析 、 图 像 识 别 等 领 
域 正在 积极 创新 ， 为 产业 结构 的 调整 和 升级 带 来 新 的 机 会 。 国 内 许多 高 校 的 电子 信息 类 、 
数字 媒体 、 教 育 技 术 等 专业 纷纷 开设 数字 图 像 与 视频 处 理 相关 课程 ， 以 满足 社会 对 相关 
专业 人 才 的 需求 。 尽 管 国 内 外 出 版 的 《数字 图 像 处 理 》 相 关 教材 不 少 ， 但 缺少 将 数字 图 
像 处 理 技 术 与 数字 视频 处 理 技 术 有 机 地 整合 在 一 起 的 教材 。 近 年 来 ， 作 者 一 直 关 注 着 数 
加 像 与 视频 处 理 技术 的 发 展 ， 并 致力 于 该 领域 的 教学 与 研究 工作 ， 深 感 出 版 一 本 《 数 
四 像 与 视频 处 理 》 教 材 实 有 必要 。 
编写 本 教材 的 指导 思想 是 : 将 图 像 与 视频 信息 的 处 理 技 术 有 机 地 整合 在 一 起 ， 揭 示 其 内 在 
的 关联 ， 以 便 让 学 生 在 有 限 的 学 时 内 掌握 更 系统 、 更 全 面 的 知识 。 本 书 的 特色 主要 体现 在 以 下 
几 方 面 。 

(1) 取材 先进 ， 内 容 新 颖 。 本 书 充 分 吸收 了 相关 领域 的 新 技术 、 新 标准 和 新 成 果 。 
例如 ， 在 第 1.6 节 视 频 信号 的 数字 化 中 ， 介 绍 了 针对 4K 与 8K 超 高 清 显 示 的 国际 标准 ITU 
-R BT. 2020; 在 第 2.3 节 ， 介 绍 了 基于 稀 玻 表 示 的 图 像 去 噪 技术 ; 在 第 2.6 节 ， 介 绍 了 基 
于 Retinex 理论 的 图 像 增强 技术 ; 在 第 4.5 节 ， 介 绍 了 基于 主动 轮廓 模型 的 图 像 分 割 新 方法 ; 
在 第 6 章 ， 介绍 了 H.265AHEVC、AVS + 视频 编码 标准 ; 在 第 8 章 ， 介 绍 了 数字 图 像 与 视频 
水 印 技术 ; 在 第 9 章 ， 介 绍 了 图 像 和 视频 质量 的 评价 方法 ; 在 第 10 章 ， 介 绍 了 基于 内 容 的 
图 像 和 视频 检索 ; 在 第 11 章 ， 介 绍 了 图 像 识别 。 

(2) 结构 合理 ， 条 理 清晰 。 本 书 突 出 定性 分 析 和 系统 原理 框图 流程 分 析 ， 科 学 系统 地 
归纳 本 学 科 知 识 点 的 相互 联系 与 发 展 规律 ， 符 合 认 知 规律 和 教学 规律 ， 富 有 局 发 性 ， 适 合 教 
学 与 自学 ， 有 利于 激发 学 生 的 学 习 兴 趣 及 创新 能 力 培养 。 

(3) 重点 突出 ， 注 重 实用 。 本 书 以 掌握 基本 原理 、 强 化 应 用 为 重点 ， 在 强调 基本 概念 、 
基本 原理 的 同时 ， 注 重 理论 与 实际 应 用 相 结 合 ， 列 举 了 大 量具 有 实际 应 用 价值 的 MATLAB 
编程 实例 ， 使 学 生 能 较 快 地 掌握 图 像 与 视频 处 理 的 基本 理论 、 方 法 、 实 用 技术 及 一 些 典型 应 
用 ， 学 以 致 用 ， 有 利于 培养 学 生 解 决 实际 问题 的 能 

本 书 共 11 章 ， 比 较 系 统 地 介绍 了 数字 图 像 与 视频 处 理 的 基本 概念 、 基 本 原理 、 关 键 
技术 和 典型 应 用 ， 知 识 体 系 完整 ， 结 构 合 理 ， 各 章 内 容 既 相互 独立 ， 又 兼顾 其 内 在 关联 
及 系统 性 。 在 对 不 同 专业 或 不 同 层次 的 教学 进行 安排 时 ， 教 师 可 根据 学 生 已 有 的 知识 基 
础 和 专业 方向 等 情况 ， 有 针对 地 选择 其 中 的 部 分 内 容 。 对 于 不 作为 重点 的 教学 内 容 ， 如 
果 学 生 感 兴趣 ， 也 可 以 自学 。 

本 书 的 编写 得 到 江苏 省 重点 研发 计划 (BE2016775) 以 及 “十 三 五 ”江苏 省 高 等 学 校 
重点 教材 立项 建设 项 目 资助 。 在 编写 过 程 中 ， 作 者 参考 和 引用 了 一 些 学 者 的 研究 成 果 、 著 作 
和 论文 ， 具 体 出 处 见 参 考 文献 。 在 此 ， 作 者 向 这 些 文献 的 著作 者 表示 敬意 和 感谢 ! 

本 书 的 第 9 章 由 崔 子 冠 老 师 编 写 ， 第 11 章 及 第 2.3.4 节 、 第 2.3.6 节 、 第 2.6 节 、 
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第 4. 5 节 由 唐 贵 进 老 师 编 写 ， 其 余 内 容 由 上 户 官 明 编写 ， 全书 由 卢 宣明 统 审 、 定 稿 。 鉴 于 作者 
水 平 所 限 ， 加 之 相关 技术 发 展 迅 速 ， 书 中 难免 存在 不 妥 之 处 ， 敬 请 同行 专家 和 广大 读者 批评 
指正 ， 提 出 宝贵 意见 和 建议 。 
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第 1I 音 图 像 与 视频 处 理 基础 


本 章 学 习 目标 : 
掌握 光 的 特性 与 度量 的 基本 知识 ， 包 括 光 通 量 、 发 光 强 度 、 照 度 、 亮 度 等 主要 光度 学 参量 。 
掌握 彩色 三 要 素 、 三 基色 原理 及 混 色 方法 等 色 度 学 知识 。 
。 理解 RGB、YUV、YIQ、YC,C,、HSIAHSV 等 颜色 空间 的 表示 及 转换 。 
掌握 人 眼 视觉 特性 的 知识 ， 包 括 亮度 感觉 特性 以 及 人 眼 的 分 辩 力 与 视觉 惰性 。 

。 熟悉 图 像 、 视 频 信号 数字 化 的 过 程 ， 掌 握 均 匀 量 化 的 原理 。 

e。 了 解 NTSC、PAL 和 SECAM 三 种 兼容 制 彩色 电视 制式 。 

。 熟悉 ITU-R BT. 601、ITU-R BT. 709、ITU-R BT. 2020 建议 和 我 国 数字 电视 节目 制作 及 交换 
用 视频 参数 。 

e 了 解 MATLAB 中 图 像 与 视频 文件 的 基本 操作 。 


1.1 光 的 特性 与 光源 


1.1.1 光 的 特性 

光 是 一 种 电磁 波 ， 它 具有 波 粒 二 象 性 一 一 波动 特性 和 微粒 特性 。 电 磁 波 包括 无 线 电波 、 红 外 
线 、 可 见 光 、 紫 外 线 、X 射线 和 宇宙 射线 等 ， 它 们 分 别 占 据 的 频率 范围 如 图 1-1 所 示 。 其 中 人 有 眼 
能 看 见 的 可 见 光谱 只 集中 在 (3.85 ~7.89) x10”Hz 的 频段 内 ， 其 波长 范围 在 380 ~780nm 之 
间 。 不 同 波长 的 光 作用 于 人 眼 后 引起 的 颜色 感觉 各 不 相同 ， 可 见 光 谱 的 波长 由 780nm 向 380nm 
变化 时 ， 人 有 眼 产生 的 颜色 感觉 依次 是 红 、 柳 、 黄 、 绿 、 青 、 蓝 、 紫 色 。 



































可 见 光谱 
无 线 电波 红外 线 紫外 线 X 射 线 宇宙 射线 
频率 /Hz 105 1010 1015 1020 105 









波长 /m 3X103 


波长 mm 780 630 580 555 495 485 460 380 


图 1-1 电磁 辐射 波谱 

















为 




















1.1.2 交通 量 和 发 光 强 度 

通 量 这 个 术语 在 光 辐 射 领域 是 常用 的 。 光 源 辐射 通 量 就 是 指 其 辐射 功率 ， 而 光源 对 某 面 积 
的 辐射 通 量 是 指 单 位 时 间 内 通过 该 面积 的 辐射 能 量 ; 光源 总 的 辐射 功率 (或 总 辐射 通 量 ) 是 指 
单位 时 间 内 通过 包含 光源 的 任 一 球面 的 辐射 能 量 。 通 量 与 功率 的 意义 是 相同 的 ， 其 单位 是 瓦 
(W) 或 焦 [ 耳 ] / 秒 (J/s)。 

通常 光源 发 出 的 光 是 由 各 种 波长 组 成 的 ， 每 种 波长 都 具有 各 自 的 辐射 通 量 。 光 源 总 的 辐射 
通 量 应 该 是 各 个 波长 辐射 通 量 之 和 。 

由 于 在 相同 的 亮度 环境 条 件 下 ， 和 辐射 功率 相同 、 波 长 不 同 的 光 所 引起 的 亮度 感觉 不 同 ; 辐射 
功率 不 同 、 波 长 也 不 相同 的 光 可 能 引起 相同 的 亮度 感觉 。 为 了 按 人 有 眼 的 光 感 党 去 度量 辐射 功率 ， 
特 引 入 光 通 量 的 概念 。 

在 光度 学 中 ， 光 通 量 (Luminous Flux) 明确 地 定义 为 能 够 被 人 的 视觉 系统 所 感受 到 的 那 部 分 
辐射 功率 的 大 小 的 度量 ， 单 位 是 流 [ 明 ] (lm)。 

因此 ， 只 要 用 到 光 通 量 这 个 术语 ， 首 先 想到 它 把 看 不 见 的 红外 线 和 紫外 线 排除 在 外 了 ， 而 且 
在 数量 上 也 并 不 等 于 看 得 见 的 那 部 分 光 辐 射 功率 值 。 那 么 ， 光 通 量 的 大 小 是 怎样 度量 的 呢 ? 按照 
国际 上 最 新 的 概念 ， 它 表示 用 标准 人 有 眼 来 评价 的 光 辐 射 通 量 ， 其 数学 表达 式 为 

B=K| BDVDAA (1-1) 


式 中 ,V(X4) 是 明 视 觉 光谱 光 视 效率 函数 ， 人 有 眼 的 视觉 特性 ， 就 是 从 这 里 开始 被 引入 到 对 光 的 定 
量 评价 中 来 的 ; @.(4) 是 光源 的 辐射 功率 波谱 ; K 是 一 个 转换 常数 ， 过 去 也 曾 称 为 光 功 当量 ， 
现在 称 为 最 大 光谱 效能 ， 它 的 数值 是 一 个 国际 协议 值 ， 规 定 K=683lmAW， 即 表示 在 人 眼 视觉 系 
统 最 敏感 的 波长 (555nm) 上 ， 和 辐射 功 率 为 1W 相对 应 的 光 通 量 ， 有 时 称 这 个 数 为 1 光 瓦 。 

因为 人 眼 只 对 380 ~780nm 的 波长 成 分 有 光 感 党 ， 因 此 式 中 的 积分 限 与 此 二 数值 相对 应 。 由 
此 可 见 ， 光 通 量 的 大 小 反映 了 一 个 光源 所 发 出 的 光 辐 射 能 量 所 引起 的 人 眼光 亮 感觉 的 能 

一 个 40W 的 钨 丝 灯 泡 所 能 输出 的 光 通 量 为 468Im， 一 个 40W 荧光 灯 可 以 输出 的 光 通 量 为 
2100lm。 通 常用 每 瓦 流明 数 来 表示 一 个 光源 或 一 个 显示 器 的 发 光 效 率 ， 如 钨 丝 灯泡 的 发 光 效 率 为 
11.7ImAW; 严 光 灯 的 发 光 效 率 为 52.5lm/ 双 ; 用 于 电视 照明 的 金属 而 化 物 灯 ， 发 光 效率 可 达 80 ~ 
100Im/W。 目 前 许多 国家 都 在 努力 研制 新 型 人 工 光源 ， 并 已 取得 不 少 成 果 ， 不仅 提 高 了 发 光 效 
率 ， 而 且 延 长 了 光源 的 使 用 寿命 。 

对 于 一 个 光源 ， 可 以 说 这 个 光源 发 出 的 光 通 量 是 多 少 ; 对 于 一 个 接收 面 ， 可 以 说 它 接收 到 的 
光 通 量 有 和 多少; 对 于 一 束 光 ， 可 以 说 这 束 光 传播 的 光 通 量 是 多 少 。 从 时 间 上 讲 ， 光 通 量 可 以 是 变 
化 的 ， 也 可 以 是 恒定 的 ; 从 空间 上 来 分 析 ， 可 以 导出 光度 学 中 其 他 几 个 常用 的 量 。 

一 个 光源 ， 例 如 一 个 电灯 泡 ， 在 它 发 光 的 时 候 ， 可 以 向 四 面 八 方 照 射 ， 但 它 向 各 个 方向 所 发 
出 的 光 通 量 可 能 是 不 一 样 的 ， 于 是 定义 发 光 强 度 (Luminous Intensity ) 来 描述 在 某 指定 方向 上 发 
出 光 通 量 的 能 力 。 发 光 强 度 的 单位 是 坎 [ 德 拉 |] (cd) 。1979 年 第 十 六 届 国 际 计量 大 会 决定 : 坎 
德 拉 是 一 光源 在 指定 方向 上 的 发 光 强 度 ， 该 光源 发 出 频率 为 540 x 10" Hz 的 单 色 辐射 ， 而 且 在 此 
方向 上 的 辐射 强度 为 1/683W/sr ( 瓦 [ 特 ] 每 球面 度 ) 。 


1.1.3 照度 和 亮度 


当 有 一 定数 量 的 光 通 量 到 达 一 个 接收 面 上 时 ， 人 们 称 这 个 面 被 照明 了 ， 照 明 程 度 的 大 小 可 
以 用 照度 (Tluminance) 来 描述 。 照 度 是 物体 单位 面积 上 所 得 到 的 光 通 量 ， 其 单位 是 勒 [ 克 斯 ] 
(]x)。1lx 等 于 1lm 的 光 通 量 均匀 地 分 布 在 1m 面积 上 的 光照 度 ， 即 1lx = 1lm/m 。 
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下 面 举 几 个 实际 生活 中 的 照度 值 。 

教室 中 的 标准 照明 是 指 在 课 桌 面 上 的 照度 不 低 于 501x; 白天 无 阳光 直射 自然 景物 上 的 照度 为 
(1 ~2) x10lx; 上 晴天 室内 的 照度 为 100 ~ 10001lx; 阴 天 自然 景物 上 的 照度 约 为 10;lx; 阴 天 室内 的 
照度 为 5 ~50lx; 夜间 满月 下 为 10 lx。 

发 光 强 度 只 描述 了 光源 在 某 一 方向 上 的 发 光 能 力 ， 并 未 涉及 光源 的 面积 ， 采 用 单位 面积 上 
的 发 光 强 度 更 能 反映 各 种 光源 的 “ 优 劣 "， 这 就 要 用 到 亮度 这 个 概念 。 

亮度 (Luminance) 是 一 个 表示 发 光 面 发 光 强 弱 的 物理 量 ， 表 示 单 位 面积 上 的 发 光 强 度 ， 其 
单位 是 坎 【 德 拉 ] 每 平方 米 (cd/m ) 。 


1.2 彩色 三 要 素 与 三 基色 原理 
































1.2.1 光 的 颜色 与 彩色 三 要 素 


光 的 种 类 繁多 ,下 面 仅 从 颜色 、 频 率 成 分 和 发 光 方式 等 方面 将 其 分 类 。 

。 按 颜色 可 分 为 彩色 光 和 非 彩色 光 。 非 彩色 光 包 括 白色 光 、 各 种 深浅 不 一 样 的 灰色 光 和 黑色 光 。 

。 按 频 率 成 分 可 分 为 单 色光 和 复合 光 。 单 色光 是 指 只 含 单一 波长 成 分 的 色光 或 者 所 占 波谱 宽 
度 小 于 5nm 的 色光 ; 包含 有 两 种 或 两 种 以 上 波长 成 分 的 光 称 为 复合 光 。 

。 按 频率 和 颜色 综合 考虑 可 分 为 谱 色 光 和 非 谱 色光 。 谱 色光 主要 是 指 波长 在 780 ~380nm 之 
间 ， 颜 色 按 红 、 检 、 黄 、 绿 、 青 、 蓝 、 紫 顺序 排列 的 各 种 光 ; 把 两 个 或 者 两 个 以 上 的 单 色光 混合 
所 得 ， 但 又 不 能 作为 谱 色 出 现在 光谱 上 的 色光 称 为 非 谱 色光 。 白 光 是 非 谱 色 光 。 

单 色光 一 定 是 谱 色 光 ， 非 谱 色 光一 定 是 复合 光 ， 而 复合 光 也 可 能 是 谱 色 光 。 例 如 ， 红 单 色光 
和 绿 单 色 光合 成 的 复合 光 为 黄色 ， 它 属于 谱 色光 。 

。 按 发 光 方 式 可 分 为 直射 光 ， 反 射 光 和 透射 光 。 发 光 体 〈 光 源 ) 直接 发 出 的 光 称 为 直射 光 ; 
物体 对 光源 发 出 的 光 ， 能 够 进行 反射 所 形成 的 光 称 为 反射 光 ; 能 进行 透射 所 形成 的 光 称 为 透射 
光 。 若 设 光源 的 功率 波谱 为 B(4)， 物 体 反 射 或 透射 特性 分 别 为 p(X4) 和 4)， 则 直射 光 、 反 射 
光 和 透射 光 的 功率 波谱 将 分 别 为 B(4)、B(4) p(4) 和 5B(4) th)。 

无 论 是 什么 光 ， 它 的 颜色 都 是 取决 于 客观 与 主观 两 方面 的 因素 。 

客观 因素 是 它 的 功率 波谱 分 布 。 光 源 的 颜色 直接 取决 于 它 的 辐射 功率 波谱 B(4); 而 彩色 物体 
的 颜色 不 仅 取决 于 它 的 反射 特性 p(4) 和 透射 特性 (4)， 而 且 还 与 照射 光源 的 功率 波谱 DB(4) 有 密 
切 关 系 。 因 此 ， 在 色 度 学 和 彩色 电视 中 ， 对 标准 光源 的 辐射 功率 波谱 ， 必 须 做 出 明确 而 严格 的 
规定 。 

主观 因素 是 人 了 上限 的 视觉 特性 。 不 同 的 人 对 于 同一 B(4) 的 光 的 颜色 感觉 可 能 是 不 相同 的 。 
例如 ， 对 于 用 红 砖 建造 的 房子 ， 视 觉 正常 的 人 看 是 红色 ， 而 有 红色 盲 的 人 看 是 土 黄色 。 

在 色 度 学 中 ， 任 一 彩色 光 可 用 亮度 (Lightness， 也 称 为 明度 )、 色 调 (Hue) 和 饱和 度 (Sat- 
uration) 这 三 个 基本 参量 来 表示 ， 称 为 彩色 三 要 素 。 

1. 亮度 (明度 ) 

亮度 也 称 明度 或 明亮 度 ， 是 光 作 用 于 人 有 眼 时 所 引起 的 明亮 程度 的 感 党 ， 用 于 表示 颜色 明暗 
的 程度 。 一 般 来 说 ， 彩 色光 的 光 功 率 大 则 感觉 亮 ， 反 之 则 暗 。 就 非 发 光 物 体 而 言 ， 其 亮度 决定 于 
由 其 反射 (或 透射 ) 的 光 功 率 的 大 小 。 若 照射 物体 的 光 功 率 为 定 值 ， 则 物体 反射 (或 透射 ) 系 
数 越 大 ， 物 体 越 明亮 ， 反 之 ， 则 越 暗 。 对 同一 物体 来 说 ， 照 射 光 越 强 ( 即 光 功率 越 大 ) ， 越 明 
亮 ， 反 之 则 越 暗 。 
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亮度 是 非 彩 色 的 属性 ， 用 于 描述 亮 还 是 暗 ， 彩 色 图 像 中 的 亮度 对 应 于 黑白 图 像 中 的 灰 度 。 
. 色调 

色调 是 指 颜色 的 类 别 ， 通 常 所 说 的 红色 、 绿 色 、 蓝 色 等 ， 就 是 指 色调 。 色 调 是 决定 色彩 本 质 
的 基本 参量 ， 是 色彩 的 重要 属性 之 一 ， 彩 色 物 体 的 色调 由 物体 本 身 的 属性 一 一 吸收 特性 和 反射 
或 透射 特性 所 决定 。 但 是 ， 当 人 们 观看 物体 色彩 时 ， 还 与 照明 光源 的 特性 一 一 光谱 分 布 有 关 。 色 
调 与 光 的 波长 有 关 ， 改 变 光 的 波谱 成 分 ， 就 会 使 光 的 色调 发 生变 化 。 例 如 在 日 光照 射 下 的 蓝 布 因 
反射 蓝光 而 吸收 其 他 成 分 而 呈现 蓝 色 ， 而 在 绿 光照 射 下 的 蓝 布 则 因 无 反射 光 而 呈现 黑色 。 对 于 
透 光 物 体 〈 例 如 玻璃 ) ， 其 色调 由 透射 光 的 波长 所 决定 。 例 如 红 玻 璃 被 白光 照射 后 ， 吸 收 了 白光 
中 大 部 分 光谱 成 分 ， 而 只 透射 过 红 光 分 量 ， 于 是 人 眼 感 觉 到 这 块 玻璃 是 红色 的 。 

3. 饱和 度 ( 彩 度 ) 

饱和 度 是 指 彩 色光 所 呈现 色彩 的 深浅 程度 ， 也 称 为 彩 度 。 对 于 同一 色调 的 彩色 光 ， 其 饱和 度 
越 高 ， 说 明 它 的 颜色 越 深 ， 如 深 红 、 深 绿 等 ;饱和 度 越 低 ， 则 说 明 它 呈现 的 颜色 越 浅 ， 如 浅 红 、 
浅 绿 等 。 高 饱和 度 的 彩色 光 可 以 通过 掺 入 白光 而 被 冲淡 ， 变 成 低 饱 和 度 的 彩色 光 。 各 种 单 色光 饱 
和 度 最 高 ， 单 色光 中 挫 和 的 白光 愈 多 ， 饱 和 度 愈 低 。 当 白光 占 绝 大 部 分 时 ， 饱 和 度 接近 于 零 ， 白 
光 的 饱和 度 等 于 零 。 物 体 色调 的 饱和 度 决 定 于 该 物体 表面 反射 光谱 辐射 的 选择 性 程度 ， 物 体 对 
光谱 某 一 较 罕 波段 的 反射 率 很 高 ， 而 对 其 他 波长 的 反射 率 很 低 或 不 反射 ， 表 明 它 有 很 高 的 光谱 
选择 性 ， 物 体 这 一 颜色 的 饱和 度 就 高 。 
色调 与 色 饱 和 度 合 称 为 色 度 ， 它 既 说 明 彩 色光 的 颜色 类 别 ， 又 说 明 颜 色 的 深浅 程度 。 色 度 再 
加 上 亮度 ， 就 能 对 颜色 做 完整 的 说 明 。 

非 彩 色 只 有 亮度 的 差别 ， 而 没有 色调 和 饱和 度 这 两 种 特性 。 


1.2.2 三 基色 原理 及 应 用 


在 自然 界 中 呈现 的 万 紫 干 红 的 颜色 ,是 人 眼 所 感觉 的 颜色 。 在 人 眼 的 视觉 理论 研究 中 ， 眼 睛 视 
网 膜 的 中 心 部 分 布 满 了 锥 体 视觉 细胞 ， 它 既 有 区 别 亮 度 的 能 力 ， 又 有 区 别 颜色 的 能 力 。 因 此 人 们 能 
看 到 自然 界 中 的 五 颜 六 色 ， 尤 其 是 雨 后 的 彩虹 ， 黄 、 青 、 绿 、 紫 、 红 、 蓝 的 颜色 给 人 以 美的 感觉 。 

三 基色 原理 是 指 自然 界 中 常见 的 大 部 分 彩色 都 可 由 三 种 相互 独立 的 基色 按 不 同 的 比例 混合 
得 到 。 所 谓 独 立 ， 是 指 其 中 任何 一 种 基色 都 不 能 由 另外 两 种 基色 混合 得 到 。 三 基色 原理 包括 如 下 
内 容 。 

1) 选择 三 种 相互 独立 的 颜色 基色 ， 将 这 三 基色 按 不 同比 例 进 行 组 合 ， 可 获得 自然 界 各 种 彩 
色 感 觉 。 

2) 任意 两 种 非 基 色 的 彩色 相 混 合 也 可 以 得 到 一 种 新 的 彩色 ,但 它 应 该 等 于 把 两 种 彩色 各 自 
分 解 为 三 基色 ， 然 后 将 基色 分 量 分 别 相 加 后 再 相 混合 而 得 到 的 颜色 。 

3) 三 基色 的 大 小 决定 彩色 光 的 亮度 ， 混 合 色 的 亮度 等 于 各 基色 分 量 亮 度 之 和 。 

4) 三 基色 的 比例 决定 混合 色 的 色调 ， 当 三 基色 混合 比例 相同 时 ， 色调 相 同 。 

按照 1931 年 国际 照明 委员 会 所 作 统 一 规定 ， 选 水 银 光谱 中 波长 为 700nm 的 红 光 为 红 基 色光 ， 
波长 为 546. 1nm 的 绿 光 为 绿 基 色光 ; 波长 为 435. 8nm 的 蓝光 为 蓝 基色 光 。 常 分 别 用 R、G、B 表 
示 。 当 红 、 绿 、 蓝 三 束 光 比例 合适 时 ， 就 可 以 合成 出 自然 界 中 常见 的 大 多 数 彩 色 。 

利用 三 基色 原理 ， 将 彩色 分 解 和 重 现 ， 最 终 实 现在 视觉 上 的 各 种 不 同 彩色 ， 是 彩色 图 像 显 示 
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和 表达 的 基本 方法 。 
不 同 颜色 混合 在 一 起 ， 能 产生 新 的 颜色 ， 这 种 方法 称 为 混 色 法 。 混 色 分 为 相 加 混 色 和 相 减 
混 色 。 
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1. 相 加 混 色 

相 加 混 色 是 各 分 色 的 光谱 成 分 相 加 ， 混 色 所 得 彩色 光 的 亮度 等 于 三 种 基色 的 亮度 之 和 。 彩 
色 电 视 系统 就 是 利用 红 、 绿 、 蓝 三 种 基色 以 适当 的 比例 混合 产生 各 种 不 同 的 彩色 。 经 过 对 人 有 眼 识 
别 颜色 的 研究 表明 : 人 的 视觉 对 于 单 色 的 红 、 绿 、 蓝 三 种 形式 的 色 刺 激 具 有 相 加 的 混合 能 力 ， 例 
如 : 用 适当 比例 的 红 光 和 绿 光 相 加 混合 后 ， 可 产生 与 黄色 光 相 同 的 彩色 视觉 效果 ; 同样 用 适当 比 
例 的 红 光 和 蓝光 相 加 混合 后 ， 可 产生 与 品 红色 光 (或 称 紫 色光 ， 严 格 地 说 ， 品 红色 与 色谱 中 的 
紫色 不 同 ) 相同 的 彩色 视觉 效果 ; 用 
适当 比例 的 蓝光 和 绿 光 相 加 混合 后 
可 产生 与 青色 光 相 同 的 北 风色 视觉 效 
果 。 自 然 界 中 所 有 的 万 紫 千 红 都 可 以 
用 红 、 绿 、 蓝 这 三 种 颜色 以 适当 的 比 
例 相 加 混合 而 成 。 相 加 混 色 的 结果 如 
图 1-2 所 示 。 

用 等 式 表示 为 

红色 + 绿色 = 黄色 绿色 + 蓝 图 1-2 ” 相 加 混 色 
色 = 青 色 红色 + 蓝 色 = 品 红色 

蓝 色 + 黄色 = 白色 ”红色 + 青色 = 白色 绿色 + 品 红色 = 白色 

红色 + 绿色 + 蓝 色 = 白色 

因为 “ 蓝 色 + 黄色 = 白色 ”， 所 以 在 色 度 学 中 称 蓝 色 为 黄色 的 补 色 ， 黄 色 为 蓝 色 的 补 色 。 同 
样 ， 红 色 和 青色 互 为 补 色 ,绿色 和 紫色 互 为 补 色 。 也 就 是 说 三 基色 红 、 绿 、 蓝 相对 应 的 补 色 分 别 

是 青色 、 品 红色 、 黄 色 。 在 有 Ce 常用 的 彩 条 信号 ， 即 黄色 、 青 色 、 绿 色 、 品 红色 、 红 
色 、 蓝 色彩 条 ， 就 是 由 红 、 绿 、 蓝 三 基色 和 它们 对 应 的 补 色 组 成 的 。 

三 基色 原理 是 彩色 电视 的 基础 ， 人 有 眼 的 彩色 感 党 和 彩色 光 的 光谱 成 分 有 密切 关系 ， 但 不 是 
决定 性 的 ， 只 要 引起 的 彩色 感觉 相同 ， 都 可 以 认为 颜色 是 相同 的 ， 而 与 它们 的 光谱 成 分 无 关 紧 
要 。 例 如 ， 单 色 青 光 可 以 由 绿色 与 蓝 色 组 合 而 成 ， 尽 管 它们 的 光谱 成 分 不 同 ， 但 人 眼 的 彩色 感觉 
却 是 相同 的 。 因 此 ， 在 彩色 视觉 重 现 的 过 程 中 ， 并 不 一 定 要 求 重 现 原 景象 的 光谱 成 分 ， 而 重要 的 
是 应 获得 与 原 景象 相同 的 彩色 感觉 。 千变万化 的 彩色 景象 ,无须 按 其 光谱 成 分 及 强度 的 真实 分 
布 情况 来 传送 ， 只 要 传送 其 中 能 合成 它们 的 三 种 基色 就 可 以 完全 等 效 ， 并 能 获得 与 原 景 象 相同 
的 彩色 视觉 。 利 用 三 基色 原理 就 可 以 大 大 简化 彩色 电视 信号 的 传输 。 

实现 相 加 混 色 的 方法 通常 有 以 下 4 种 。 

(1) 时 间 混 色 法 

时 间 混 色 法 将 三 种 基色 光 按 一 定 的 时 间 顺 序 轮流 投射 到 同一 平面 上 ， 只 要 轮换 速度 足够 快 ， 
由 于 人 眼 的 视觉 惰性 ， 分 辨 不 出 三 种 基色 ， 而 只 能 看 到 混合 彩色 的 效果 。 如 单 片 DLP (Digital 
Light Processing， 数 字 光 处 理 ) 色 轮 技术 就 是 利用 了 时 间 混 色 法 。 

(2) 空间 混 色 法 

空间 混 色 法 是 将 三 种 基色 光 分 别 投射 到 同一 表面 的 相 邻 三 点 上 ， 只 要 三 点 相隔 足够 近 ， 由 
于 人 眼 的 分 辨 为 有 限 ， 故 看 到 的 不 是 三 种 基色 光 而 是 它们 的 混 色 光 。 空间 混 色 法 是 同时 制 有 彤 色 
电视 的 基础 ，CRT ( Cathode Ray Tube， 阴 极 射 线 管 ) 、PDP (Plasma Display Panel， 等 离子 体 显 示 
佑 ) 、LCD (Liquid Crystal Display， 液 晶 显 示 需 ) 的 显 像 就 是 利用 了 空间 混 色 法 。 

(3) 生理 混 色 法 

当 两 只 眼睛 同时 分 别 观看 不 同 的 颜色 (例如 ， 左 眼 观看 红 光 ， 右 眼 观 看 绿 光 ) ， 人 们 所 感 
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觉 到 的 彩色 不 是 两 种 单 色 ， 而 是 它们 的 混合 色 。 立 体彩 色 电 视 的 显 像 方法 就 利用 这 种 生理 混 
色 法 。 

(4) 全 反射 法 

全 反射 法 是 将 三 种 基色 光 以 不 同比 例 同时 投射 到 一 块 全 反射 的 平面 上 。 由 此 构成 了 投影 彩 
电 。 例 如 ， 多 媒体 教室 中 的 前 投 彩电 、 家 电 中 的 背 投 彩电 的 显 像 就 是 利用 了 这 种 方法 。 

利用 空间 和 时 间 混 色 效 应 ， 就 可 以 对 彩色 图 像 进行 空间 和 时 间 上 的 分 割 ， 将 其 分 解 为 像素 ， 
采用 顺序 扫描 的 方式 ， 来 处 理 和 传送 彩色 电视 信号 。 

彩色 电视 从 20 世纪 初 到 现在 ， 经 过 几 十 年 的 研究 和 发 展 ， 从 摄像 、 传 输 到 显示 技术 都 是 利 
用 红 、 绿 、 蓝 三 基色 原理 把 自然 界 中 的 五 颜 六 色 的 景物 显示 到 电视 机 屏幕 上 ， 供 观众 欣赏 。 就 目 
前 而 言 ， 在 世界 范围 内 ， 无 论 是 模拟 彩色 电视 机 还 是 数字 电视 接收 机 ， 无 论 是 扫描 型 阴极 射线 管 
电视 机 还 是 固有 分 辨 力 电 视 机 (例如 液晶 电视 机 、 等 离子 体 电视 机 ) ， 无 论 是 直 视 型 电视 机 还 是 
投影 型 电视 机 ， 都 是 利用 三 基色 原理 工作 的 。 阴 极 射 线 管 电视 机 、 等 离子 体 电视 机 ， 选 用 红 、 
绿 、 蓝 三 色 菊 光 粉 作为 三 基色 ， 利 用 迈 光 粉 发 出 的 三 基色 光 进 行 混合 而 成 ; LCD 电视 机 (包括 
直 视 型 和 投影 型 ) 、LCoS (Liquid Crystal on Silicon， 硅 基 液 晶 ) 投影 机 都 是 通过 光学 系统 滤 光 分 
色 ， 分 出 红 、 绿 、 蓝 三 基色 信号 后 经 信号 调制 再 相 加 混合 而 形成 彩色 图 像 。 

但 是 ， 目 前 出 现 了 各 种 不 同 成 像 原理 的 成 像 器 件 ， 有 的 成 像 器 件 重 现 还 原 的 色 域 范围 较 小 ， 
限制 了 在 电视 中 的 应 用 ,液晶 面板 就 是 其 中 的 一 种 。 为 了 提升 液晶 电视 的 彩色 重 现 范围 ， 生 产 液 
晶 面 板 的 一 些 公司 研究 不 同 的 方法 ， 改 进 和 提高 彩色 的 还 原 能 力 。 采 用 四 色 、 五 色 或 六 色 滤 色 器 
面板 ， 以 提高 液晶 电视 的 彩色 重 现 范围 。 对 单 片 DLP 投影 机 ， 为 了 增加 亮度 和 彩色 鲜艳 度 ， 将 
由 过 去 的 R、G、B 三 段 色 轮 改造 成 R、G、B、C ( 青 )、Y ( 黄 )、M ( 品 红 ) 六 段 色 轮 ， 并 在 
驱动 和 显示 电路 上 ， 实 现 单独 地 对 R、G、B、C、Y、M 进行 补偿 ， 以 提高 投影 机 的 亮度 和 彩色 
鲜艳 度 ， 同 时 也 可 以 根据 用 户 的 需要 进行 修正 。 

随 着 数字 化 处 理 技术 的 发 展 ， 近 几 年 对 显示 器 的 色 度 处 理 方法 也 越 来 越 多 ， 可 以 根据 显示 
器 内 部 电子 装置 的 需要 ， 将 一 些 信号 从 一 种 形式 变换 成 另 一 种 形式 ， 以 便 完 成 各 种 处 理 任务 。 例 
如 ， 首 先 将 这 些 信 和 号 实时 地 、 一 个 像素 一 个 像素 地 变换 成 亮度 和 色 度 坐标 ， 以 这 种 形式 对 其 进行 
独立 处 理 ， 最 后 变换 成 电子 信号 ， 传 送 给 显示 设备 进行 显示 。 这 样 做 的 最 大 优点 就 是 将 信号 源 信 
号 的 校正 与 参数 设置 和 显示 器 的 标准 和 设置 隔离 开 来 ， 可 以 独立 地 对 某 种 颜色 进行 修改 和 校正 ， 
可 以 消除 灰 度 、 色 调和 饱和 度 之 间 的 相互 作用 而 产生 的 误差 ， 可 以 允许 因 观 众 喜 好 不 同 而 和 信 
号 源 有 一 定 的 误差 等 优点 。 还 有 通过 对 电路 的 设计 ， 可 以 单独 对 红 、 绿 、 蓝 和 它们 对 应 的 补 色 分 
别 进行 修正 ， 获 得 更 明亮 、 更 鲜艳 的 彩色 ， 以 符合 某 些 观众 对 颜色 的 喜好 。 

但 无 论 采 用 哪 种 彩色 的 补偿 修正 方法 ， 以 红 、 绿 、 蓝 作为 彩色 电视 的 三 基色 原理 是 不 会 改变 
的 。 因 为 彩色 电视 系统 到 目前 为 止 ， 在 前 端 摄像 机 采集 景物 图 像 的 颜色 、 演 播 室 的 节目 制作 和 中 
间 的 节目 传输 都 是 采用 红 、 绿 、 蓝 三 基色 ; 而 在 终端 显示 部 分 ， 只 是 有 些 企业 为 演 染 彩色 重 现 效 
果 ， 在 电视 机 的 信号 处 理 电路 部 分 分 别 采用 “六 色 ” 或 “五 色 ” 或 “四 色 ” 的 处 理 技术 ,但 在 
终端 显示 还 是 以 R、G、B 三 基色 相 加 混合 重 现 彩 色 图 像 ， 重 现 的 彩色 范围 不 会 超过 三 基色 相 加 
混 色 限定 的 范围 。 

2. 相 减 混 色 

在 彩色 印刷 、 彩 色 胶片 和 绘画 中 的 混 色 采用 相 减 混 色 法 。 相 减 混 色 是 利用 颜料 、 染 料 的 吸 色 
性 质 来 实现 的 。 例 如 ， 黄 色 颜 料 能 吸收 蓝 色 (黄色 的 补 色 ) 光 ， 于 是 在 白光 照射 下 ， 反 射 光 中 
因 缺 少 蓝 色光 成 分 而 呈现 黄色 。 青 色 染 料 因 吸 收 红 光 成 分 ， 在 白光 照射 下 呈现 青色 。 若 将 黄 、 青 
两 色 颜 料 相 混 ， 则 在 白光 照射 下 ， 因 蓝 、 红 光 均 被 吸收 而 呈现 绿色 。 混 合 颜 料 时 ， 每 增加 一 种 颜 
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像 : 视频 由 理 山 (©) 
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料 ， 都 要 从 白光 中 减 去 更 多 的 光谱 成 分 ， 因此， 颜料 混合 过 程 称 


























为 相 减 混 色 。 在 相 减 混 色 法 中 ， 通 常 选 用 青色 (C) 、 品 红 (M) 、 
黄色 (Y) 为 三 基色 ， 它 们 能 分 别 吸收 各 自 的 补 色光 ， 即 红 、 绿 、 /#\ 黄 
蓝光 。 因 此 ， 在 相 减 混 色 法 中 ， 当 将 三 基色 按 不 同比 例 相 混 时 ， \/ 
在 白光 照射 下 ， 红 、 绿 、 蓝 光 也 将 按 相应 的 比例 被 吸收 ， 从 而 呈 AN 
现 出 各 种 不 同 的 彩色 。 相 减 混 色 的 结果 如 图 1.3 所 示 。 
用 等 式 表示 为 
青 -= 白 - 红 黄 + 品 红 -= 白 - 蓝 - 绿 -= 红 ni 
品 红 = 白 - 绿 黄 + 青 = 白 - 蓝 - 红 = 绿 0 
黄 = 白 -区 品 红 - 青 = 白 - 绿 - 红 = 划 
黄 + 青 + 品 红 = 和 白 - 蓝 - 红 - 绿 = 黑色 





+ 棚 + 
这 种 以 青色 (C) 、 品 红 (M) 、 黄 色 (Y) 为 三 基色 的 彩色 空间 模型 称 为 CMY 模型 。 
12.3 儿 种 典型 的 颜色 空间 模型 及 转换 关系 


在 多 媒体 系统 中 通常 用 几 种 不 同 的 颜色 空间 模型 表示 图 形 和 图 像 的 颜色 ， 如 计算 机 显示 时 
采用 RGB 颜色 空间 模型 ; 在 彩色 全 电视 信号 数字 化 时 使 用 YC,C, 颜 色 空 间 ; 彩色 印刷 时 采用 
CMYK 颜色 空间 模型 等 。 不 同 的 颜色 空间 对 应 不 同 的 应 用 场合 ， 在 图 像 的 生成 、 存 储 、 处 理 及 显 
示 时 对 应 不 同 的 颜色 空间 ， 需 要 做 不 同 的 处 理 和 转换 ， 下 面 简单 介绍 几 种 典型 的 颜色 空间 模型 
及 转换 关系 。 

1. RGB 颜色 空间 模型 

在 多 媒体 计算 机 中 ， 用 得 最 多 的 是 RGB 颜色 空间 模型 ， 因 为 计算 机 和 彩色 电视 机 的 彩色 显 
示 需 的 输入 需要 RGB 的 彩色 分 量 ， 通 过 3 个 分 量 的 不 同比 例 ， 在 显示 需 屏 幕 上 合成 所 需要 的 任 
一 颜色 。 不 管 其 中 采用 什么 形式 的 颜色 空间 表示 方法 ， 多 媒体 系统 最 终 的 输出 一 定 要 转换 成 
RGB 空间 表示 。 

在 RGB 颜色 空间 ， 对 任意 彩色 光正 ， 其 配色 方程 可 写 为 


F=r[R] +g[lG] +6[B] (1-2) 


式 中 , r、g、b 为 三 色 系 数 ; r[R]、g[G]、6b[LB] 为 下 色光 的 三 色 分 量 。 

RGB 颜色 空间 模型 可 以 用 笛 卡 尔 坐 标 系 
(Cartesian coordinates) 中 的 立方 体 来 形象 表 Re 青 (0, 1,1) 
示 ，3 个 坐标 轴 的 正方 向 分 别 是 R、G、B 三 
基色 ， 用 三 维 空间 中 的 一 个 点 来 表示 一 种 颜 
色 ， 如 图 1-4 所 示 。 每 个 点 有 3 个 分 量 , 分 
别 代 表 该 点 颜色 的 红 (R)、 绿 (G)、 蓝 
(B) 三 基色 的 值 。 为 了 方便 描述 ,将 各 基色 
的 取 值 范围 从 0 ~255 归 一 化 到 0 ~1。 

在 RGB 模型 立方 体 中 ， 原 点 所 对 应 的 颜 i 黑 (0,0,0) 
色 为 黑色 ， 它 的 3 个 分 量 值 都 为 0。 距 离 原 黄 ( 0) 
点 最 远 的 顶点 对 应 的 颜色 为 白色 ， 它 的 3 个 图 1-4 RGB 颜色 空间 模型 
分 量 值 都 为 1。 从 黑 到 白 的 灰 度 值 分 布 在 这 
两 个 点 的 连 线 上 ， 该 线 称 为 灰色 线 。 立 方 体内 其 余 各 点 对 应 不 同 的 颜色 。 彩 色 立 方 体 中 有 3 个 角 




























































































品 红 (1,0,1) 





白 (1,1,1) 




















绿 (0, 1,0) 
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对 应 于 三 基色 一 一 红 、 绿 、 蓝 。 剩 下 的 三 个 角 对 应 于 三 基色 的 3 个 补 色 一 一 黄色 、 青 色 、 品 红色 
(紫色 ) 。 

2. CMY/CMYK 颜色 空间 模型 

彩色 印刷 或 彩色 打印 的 纸张 是 不 能 发 射 光 线 的 ， 因 而 印刷 机 或 好 ee 
能 够 吸收 特定 的 光波 而 反射 其 他 光波 的 油墨 或 颜料 。 油 墨 或 颜料 的 三 基色 是 青 (Cyan)、 
(Magenta) 和 黄 (Yellow) ， 简 称 为 CMY。 理 论 上 说 ， 任 何 一 各 大 村 星 现 的 颜 色 痢 可 以 用 这 三 
0 合 而 成 ， 人 们 称 这 种 颜色 表示 方法 为 CMY 颜色 空间 表示 法 。 彩 色 打 印 机 

彩色 印刷 系统 都 采用 CMY 颜色 空间 模型 。 

CMY 颜色 空间 正好 与 RGB 颜色 空间 互补 ， 即 用 白色 减 去 RGB 颜色 空间 中 的 某 一 颜色 值 就 等 
于 这 种 颜色 在 CMY 颜色 空间 中 的 值 。 

根据 这 个 原理 ， 很 容易 把 RGB 颜色 空间 转换 成 CMY 颜色 空间 。 由 于 彩色 墨水 和 颜料 的 化 学 
特性 ， 用 等 量 的 CMY 三 基色 得 到 的 黑色 不 是 真正 的 黑色 ， 因 此 在 彩色 印刷 技术 中 常 加 一 种 真正 
的 黑色 墨水 (Black Ink)。 由 于 B 已 经 用 来 表示 蓝 色 ， 因 此 黑色 用 表示， 于 是 CMY 颜色 空间 
也 称 为 CMYK 颜色 空间 。 

3. YUV 和 YIQ 颜色 空间 模型 

在 现代 彩色 电视 系统 中 ， 通 常 采用 三 管 彩色 摄像 机 或 彩色 CCD (Charge Coupled Device， 电 
荷 耦合 吉 件 ) 摄像 机 ， 它 把 得 到 的 彩色 图 像 信 和 号， 经 分 色 ， 分 别 放大 校正 得 到 尺 、G、B， 青 经 
过 和 矩阵 变换 电路 得 到 亮度 信号 YY 和 2 个 色差 信号 R-Y、B -Y， 最 后 发 送 端 将 亮度 和 2 个 色差 信 
号 分 别 进行 编码 ， 用 同一 信道 发 送出 去 。 这 就 是 PAL 彩色 电视 制式 中 使 用 的 YUV 颜色 空间 模型 
和 NTSC 彩色 电视 制式 中 使 用 的 YIQ 颜色 空间 模型 。 其 中 了 表示 亮度 信号 ,UO 和 V (IT 和 0Q) 构 
成 彩色 的 2 个 分 量 。 

采用 YUV 颜色 空间 模型 的 重要 性 在 于 它 的 亮度 信号 Y 和 色差 信号 VU、V 是 分 离 的 。 如 果 只 
有 了 信号 分 量 而 没有 U、V 分 量 ， 那 么 表示 的 图 就 是 黑白 灰 度 图 。 彩 色 电 视 采 用 YUV 空间 模型 
正 是 为 了 用 亮度 信号 了 解决 彩色 电视 机 与 黑白 电视 机 的 兼容 问题 ， 使 黑白 电视 机 也 能 接收 彩色 
信号 。 

另外 ， 人 眼 对 彩色 网 像 细 节 的 分 辩 能 力 比 对 黑白 图 像 低 ， 因 此 ， 对 色 度 信号 UV 和 了 可 以 采 
用 “大 面积 着 色 原 理 ”， 即 用 亮度 信号 了 传送 细节 ， 用 色 度 信号 VU、V 进行 大 面积 涂 色 。 

根据 美国 国家 电视 制式 委员 会 (NTSC) 制式 的 标准 ， 当 白光 的 亮度 用 了 来 表示 时 ， 它 和 红 、 
绿 、 蓝 三 色光 的 关系 可 用 式 (1-3) 描述 为 


Y=0.299R +0.587G +0.114B (1-3) 


这 就 是 常用 的 亮度 公式 。 色 差 信号 U、V 是 由 B-Y、R -了 按 不 同比 例 压 缩 而 成 的 。YUV 颜 
色 空 间 模 型 与 RGB 颜色 空间 模型 的 转换 关系 为 


了 0.299 0.587 0.114 R 
| -0.147 -0.289 0.436 | 日 (1-4) 
V 0.615 -0.515 -0.100」 LB 
如 果 要 由 YUV 转换 成 RGB ， 只 要 进行 相应 的 逆 运 算 即 可 
了 
。 | (1-5) 
V 


R] [1 0 1. 140 
四 -0.395 -0.581 
美国 、 日 本 等 国 采用 了 NTSC 制式 ， 选 用 的 是 YIQ 颜色 空间 模型 。Y 仍 为 亮度 信号 ，T、Q 仍 
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Bb 1 2.032 0 
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为 色差 信号 ， 但 它们 与 IC、T 不 同 ， 其 区 别 是 色 度 矢量 图 中 的 位 置 不 同 ，@、7 为 互相 正 交 的 坐标 
轴 ， 它 与 VU、V 正 交 轴 之 间 有 33° 夹 角 。 
TIT、 0 与 VU 之 间 的 关系 可 以 表示 为 
T= Veos33° ~ Usin33° 
| | (1-6) 
Q = Vsin33° + Ucos33° 
YIQ 颜色 空间 模型 与 RGB 颜色 空间 模型 的 转换 关系 为 
7Y] FO0.299 0.587 0.114 1TR 
ke -0.275 -0.321 日 (1-7) 
0j」 L0.212 -0.523 0.311 JLBp 
选择 YIQ 颜色 空间 模型 的 优势 是 : 由 人 有 眼 彩色 视觉 的 特性 表明 ， 人 有 眼 分 辩 红 、 黄 之 间 颜 色 
变化 的 能 力 最 强 ， 而 分 辩 蓝 、 紫 之 间 颜 色 变化 的 能 力 最 绊 。 通 过 一 定 的 变化 , 7 对 应 于 人 有 眼 最 敏 
感 的 色 度 ， 而 0 对 应 于 人 有 眼 最 不 敏感 的 色 度 。 这 样 ， 传 送 0 可 以 用 较 罕 的 频带 ， 而 传送 分 辩 率 
较 强 的 1 信号 时 ， 可 以 用 较 宽 的 频带 。 对 应 于 数字 化 的 处 理 则 可 以 用 不 同 的 比特 数 来 记录 这 些 
分 量 。 
4. YCbC. 颜 色 空 间 模 型 
YC,C, 颜 色 空间 是 由 YUV 颜色 空间 派生 的 一 种 颜色 空间 模型 ， 主 要 用 于 数字 电视 系统 。 与 
RGB 颜色 空间 不 同 ，YC,C, 颜 色 空 间 采 用 一 个 亮度 信号 (Y) 和 两 个 色差 信号 (C,，C,) 来 表 
示 。 采 用 这 种 表示 方法 的 原因 主要 是 为 了 减少 数据 存储 空间 和 节省 数据 传输 带宽 ， 同 时 又 能 非 
常 方便 地 兼容 黑白 电视 。 基 本 上 ，YC,C .代表 和 YUV 相同 的 颜色 空间 。 但 是 YC,C, 中 的 各 成 分 是 
YUV 颜色 空间 中 各 成 分 的 成 比例 的 补偿 数值 。YC,C ,颜色 空间 模型 与 RGB 模型 的 转换 关系 式 为 
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Y 0. 2990 0. 5870 0. 1140 R 
C, -| 0. 5000 —0.4187  —0.0813 四 (1-8 ) 
C, —0.1687 -0.3313 0.5000 Bb 














式 中 , R、G、B 的 值 指定 在 [0, 1] 范围 内 , 了 分 量 的 范围 为 [0，1] ，C， 0 
[ -0.5,0.5] 。 当 采用 8bit 量化 时 ，7、C, 和 C .分量 的 量化 级 再 用 式 (1-9) 计算 ， 
ete rin] 








C,=round[C, +128] (1-9) 
C, =round[C, +128] 
式 中 ，round[ ] 表示 四 含 五 人 取 整 运算 。 
5. HSI/HSYV 颜色 空间 模型 
用 RGB 颜色 空间 来 表示 颜色 虽然 方便 ， 但 是 两 个 相近 颜色 的 及 、C、 下 值 却 可 能 差别 很 大 ， 
不 同 于 人 们 日 常 中 对 颜色 区 分 的 理解 。HSIAHSV 颜色 空间 模型 是 从 人 的 视觉 系统 出 发 ,用量 
(Hue) 、 I(Intensity) 或 V(Value) 分 别 代 表 色 调 、 色 饱和 度 、 亮 度 三 种 独立 的 颜 
色 特 征 。 这 个 模型 的 建立 基于 如 下 两 个 重要 的 事实 。 
1) 0 彤 色 信 息 无 关 。 
2) 五 和 5 分量 与 人 感受 颜色 的 方式 是 相 一 致 的 。 
这 些 特点 使 得 HSLAHSV 模型 非常 适合 借助 人 的 视觉 系统 来 感知 彩色 特性 的 图 像 处 理 算法 。 
图 1-5 所 示 为 一 种 用 圆锥 体 表 示 的 HSV 颜色 空间 模型 。 
在 图 1-5a 所 示 的 HSV 颜色 空间 模型 中 ， 以 圆锥 底部 的 点 为 坐标 原点 ， 圆 锥 的 每 个 水 平 截面 
包含 了 所 有 的 颜色 ， 常 用 色相 环 ( 见 图 1-5b) 来 描述 厂 (色调 ) 和 S ( 色 饱 和 度 ) 两 个 参数 。 瑟 
(色调 ) 以 绕 圆 锥 中 心 轴 的 角度 表示 ， 取 值 范 围 为 【0"，360"] 。 一般 假定 ， 红 色 对 应 万 =0°， 绿 
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像 与 视频 处 理 











Cyan |180° Red 








Blue 





Magenta 


a) HSV 颜 色 空间 模型 b) 色相 环 
图 1-5 HSV 颜色 空间 模型 


色 对 应 石 =120°*， 蓝 色 对 应 及 =240°。0° ~240。 之 间 的 色调 覆盖 了 所 有 可 见 光 谱 的 彩色 ， 在 240。 ~ 
360" 之 间 的 色调 为 人 眼 可 见 的 非 光 谱 色 (紫色 ) 。 色 饱和 度 是 指 一 个 颜色 的 鲜明 程度 饱和 度 越 高 ， 
颜色 越 深 ， 如 深 红 、 深 绿 。S 〈 色 饱和 度 ) 参数 由 色相 环 的 原点 〈 圆 心 ) 到 彩色 点 的 半径 的 长 度 表示 ， 
归 一 化 后 取 值 范 围 为 [0, 1] 。V (亮度 ) 直接 用 圆锥 的 中 心 轴 表 示 ， 取 值 范围 也 为 [0, 1]。 在 












































罚 锥 的 顶点 〈 即 原点 ) 处 , V=0, 五 和 5 的 值 无 意义 ， 代 表 黑 色 。 圆 锥 的 顶 面 中 心 处 $=0, 了 = 
1, 五 的 值 无 意义 ,代表 白色 。 类 似 于 RGB 颜色 空间 ， 连 接 原点 和 顶 面 中 心 的 轴线 也 是 一 条 灰 度 


线 ， 对 于 灰 度 线 上 的 点 ，S =0, 瑟 的 值 无 意义 。 在 圆锥 顶 面 的 圆周 上 的 颜色 ，7=1，S$=1， 这 种 
颜色 是 纯色 ， 其 饱和 度 值 最 大 。 

利用 HSIAHSV 颜色 空间 中 各 颜色 特征 相互 独立 的 特点 ， 在 图 像 处 理 时 ， 可 以 将 亮度 分 量 易 
除 ， 减 少 处 理 结果 受 光 线 变 化 的 影响 。 因 此 ， 在 计算 机 视觉 领域 ， 常 将 RGB 颜色 空间 转换 到 
HSIAHSV 颜色 空间 进行 处 理 ， 以 得 到 更 好 的 效果 。 

HSLHSYV 颜色 空间 模型 和 RGB 颜色 空间 模型 只 是 同一 物理 量 的 不 同 表示 法 ， 因 而 它们 之 间 
存在 着 转换 关系 。 

(1) RGB 模型 转换 到 HSIAHSV 模型 

给 定 一 幅 RGB 彩色 格式 的 图 像 ， 对 任何 3 个 [0, 1] 范围 内 的 RG、B 值 ， 其 对 应 HSI/ 
HSV 模型 中 的 T(V 值 相同 )、S、 五 分 量 的 计算 公式 为 


























_R+G+B 








I (1-10) 
S=1- Fro srin(R,C,B) (1-11) 
a BG (1-12) 
360° -0, B>G 
其 中 ， 
加 (R-G)+(R-B) 
0= aroeos | TCR G0) | (1-13) 


(2) HSIAHSV 模型 转换 到 RGB 模型 
假设 S$ 和 了 的 值 在 [0, 1] 之 间 , R、G、B 的 值 也 在 [0, 1] 之 间 ， 则 HSI 模型 转换 为 
RGB 模型 的 公式 分 成 3 段 ， 以 便利 用 对 称 性 。 
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像 : 视频 由 理 山 (©) 


为 























Qa 当 0°<H<120° 时 











B=L(1-5) (1-14) 
ScosH 
R= 省! * cos(60° -HH) (1-15) 
G=31-(B+R) (1-16) 
© 当 120°<H<240° 时 
R=1(1 -58) (1-17) 
Scos(H—120°) 
c= 小 + cos(1805 二 万) (1-18) 
B=31-(G+R) (1-19) 
@®@ 当 240°<H<360° 时 
Scos(H—240°) 
B=1[1+ cos(300° -HH) (1-21) 


R=31- (G+B) (1-22) 
对 于 HSV 模型 到 RGB 模型 的 转换 ， 只 要 将 上 述 公 式 中 的 了 变量 换 成 了 变量 就 行 了 。 


1.3 人 有 眼 的 视觉 特性 














1.3.1 视觉 光谱 光 视 效率 曲线 


视觉 效应 是 由 可 见 光 刺激 人 眼 引 起 的 。 如 果 光 的 辐射 功率 相同 而 波长 不 同 ， 则 引起 的 视觉 
效果 也 不 同 。 随 着 波长 的 改变 ， 不 仅 颜 色 感觉 不 同 ， 而 且 亮 度 感觉 也 不 相同 。 例 如 ， 在 等 能 量 分 
布 的 光谱 中 ， 人 有 眼 感 到 最 亮 的 是 黄 绿色 ， 而 红色 则 暗 得 多 。 反 过 来 说 ， 要 获得 相同 的 亮度 感觉 ， 
所 需要 的 红 光 的 辐射 功率 要 比 绿 光 的 大 得 多 。 人 有 眼 这 种 对 不 同 波长 光 有 不 同 敏 感度 的 规律 因 不 
同人 而 有 所 不 同 ; 对 同一 人 来 讲 ， 也 会 因 年 龄 、 身 体 状况 等 因素 而 变化 。 下 面 要 介绍 的 人 眼光 谱 
光 视 效率 曲线 是 以 “标准 观察 者 ”的 标准 数据 为 依据 的 ， 即 这 些 数 据 来 自 对 许多 正常 视觉 观察 
者 测试 结果 的 平均 值 。 

为 了 确定 人 眼 对 不 同 波长 光 的 敏感 程度 ， 可 在 相同 亮度 感觉 的 情况 下 ， 测 出 各 种 波长 光 的 
辐射 功率 B,(4)。 显 然 ,， B,(4) 越 大 ,说 明 该 波长 的 光 越 不 容易 被 人 眼 所 感觉 ，B、(4) 越 小 ， 
则 人 了 眼 对 该 波长 的 光 越 敏 感 。 因 此 ，B,(4) 的 倒数 可 用 来 衡量 视觉 对 波长 为 4 的 光 的 敏感 程度 ， 
称 为 光谱 光 视 效能 ， 用 K(4) 表示 。 






















































































实验 表明 ， 对 =555nm 的 黄 绿 光 ， 有 最 大 的 光谱 光 视 效能 K, = K(555)。 于 是 ， 把 任意 波长 
光 的 光谱 光 视 效能 K(X4) 与 K, 之 比 称 为 光谱 光 视 效率 ， 并 用 函数 V (4) 表示 : 
K(4) K(X) 
Wy ~K(555) kK, C0) 
如 果 用 得 到 相同 主观 亮度 感觉 时 所 需 各 波长 光 的 辐射 功率 B,(4) 表示 ， 则 有 
PD, (555 
V(X) = 人 (1-24) 





(4) 是 小 于 1 的 数 ， 也 就 是 说 ， 为 得 到 相同 的 主观 亮度 感觉 ， 在 波长 为 555nm 时 ， 所 需 光 
的 辐射 功率 为 最 小 。 随 着 波长 自 555nm 开始 逐渐 增 大 或 减 小 ， 所 需 辐 射 功率 将 不 断 增长 ， 或 者 
说 光谱 光 视 效能 不 断 下 降 。 
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图 1-6 所 示 为 明 视觉 与 暗 视觉 的 光谱 光 视 效率 V(4) 曲线 。 这 条 曲线 也 称 为 相对 视 敏 度 (或 
光谱 灵敏 度 ) 曲线 。 








内 








像 己 视频 处 理 





























光谱 光 视 效率 





300 400 S00 600 700 800 
波长 mm 


图 1-6 明 视 觉 与 瞳 视 觉 的 光谱 光 视 效率 曲线 


1.3.2 人 有 眼 的 亮度 感 党 特性 


1. 明暗 视觉 

在 1.3.1 节 中 讨论 了 人 眼 的 明 视 觉 光谱 光 视 效率 ， 并 给 出 了 图 1-6 中 粗 线 所 示 的 典型 F(2) 
曲线 。 这 条 曲线 表明 在 白天 正常 光照 下 人 有 眼 对 各 种 不 同 波长 光 的 敏感 程度 ， 它 称 为 明 视 觉 光 谱 
光 视 效率 曲线 。 明 视觉 过 程 主要 是 由 锥 状 细胞 完成 的 ， 它 既 产 生 明 感觉 ， 又 产生 彩色 感觉 。 因 
此 ， 这 条 曲线 主要 反映 锥 状 细胞 对 不 同 波长 光 的 亮度 敏感 特性 。 

在 夜晚 或 微弱 光线 条 件 下 ， 人 眼 的 视觉 过 程 主要 由 杆 状 细胞 完成 。 而 杆 状 细胞 对 各 种 不 同 
波长 光 的 敏感 程度 将 不 同 于 明 视 觉 视 敏 度 ， 表 现 为 对 波长 短 的 光敏 感 程度 有 所 增 大 。 即 光谱 光 
视 效 率 曲线 向 左 移 ， 如 图 1-6 中 细 线 所 示 。 在 这 种 情况 下 ， 紫 色 能 见 范围 扩大 ; 红色 能 见 范围 缩 
小 。 这 一 曲线 称 暗 视觉 光谱 光 视 效率 曲线 。 

当 光 线 暗 到 一 定 程度 时 ， 杆 状 细胞 只 有 明暗 感觉 ， 而 没有 彩色 感觉 。 于 是 人 眼 分 辨 不 出 光谱 
中 各 种 颜色 ， 结 果 使 整个 光谱 带 只 反映 为 明暗 程度 不 同 的 灰色 带 。 

2. 亮度 感觉 

在 定义 亮度 时 虽然 已 经 考虑 了 人 了 眼 的 视觉 光谱 光 视 效率 曲线 ， 但 在 观察 景物 时 所 得 到 的 亮 
度 感觉 却 并 不 直接 由 景物 的 亮度 所 决定 ， 而 且 还 与 周围 环境 的 背景 亮度 有 关 。 人 有 眼 的 亮度 感觉 
特性 如 图 1-7 所 示 。 

人 有 眼 察觉 亮度 变化 的 能 力 是 有 限 的 。 请 看 下 面 的 实验 : 让 人 了 眼 观察 如 图 1-7a 所 示 P, 和 P, 两 个 
画面 ，P, 和 P, 的 亮度 均 可 调节 。 保 持 P 亮度 从 B 缓慢 递增 至 B+AB,,,， 直 到 眼睛 刚刚 觉察 到 两 者 
的 亮度 有 差别 为 止 。 此 时 ， 可 认为 在 这 个 亮度 下 的 亮度 感觉 差 了 一 级 。 用 相同 的 方法 ， 可 以 求 出 不 
同 亮度 的 主观 亮度 感觉 级 数 ， 并 制 成 如 图 1-7b 所 示 的 曲线 。 曲 线 的 意义 是 实际 亮度 变化 所 引起 的 
主观 亮度 感觉 变化 。 图 中 横 坐 标 代表 实际 亮度 的 变化 ， 纵 坐标 代表 主观 亮度 感觉 的 级 数 。 

以 上 实验 说 明 . 

1) 要 使 人 眼 感 觉 到 P, 和 P, 两 个 画面 有 亮度 差别 ， 必 须 使 两 者 的 亮度 差 达到 AB,, ，AB,, 称 
为 可 见 度 阔 值 。 因 AB,, 是 有 限 小 量 ,， 而 不 是 无 限 小 量 ， 因 此 ， 人 有 眼 察觉 亮度 变化 的 能 力 是 有 
限 的 。 

2) 对 于 不 同 的 背景 亮度 ， 人 了 眼 可 觉察 的 最 小 亮度 差 AB,,, 也 不 同 。 但 在 一 个 均匀 亮度 背景 
下 ，AB,,/B 是 相同 的 ， 并 等 于 一 个 常数 &。 
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为 








像 : 3 视频 由 山 (©) 























=AB,,/B 称 为 相对 对 比 度 灵敏 度 阔 或 韦 
伯 - 费 赫 涅 尔 系数 ( Weber- Fechner Ratio)。 随 着 
环境 的 不 同 ,& 的 值 通常 在 0. 005 ~ 0. 02 范围 
内 变化 。 当 背景 亮度 很 高 或 很 低 时 , 上 的 值 可 
增 大 至 0. 05 。 在 观看 电视 图 像 时 ， 由 于 受 环 
境 杂 散光 影响 ，é 的 值 会 更 大 些 。 

3. 视觉 范围 及 明暗 感觉 的 相对 性 

视觉 范围 是 指 人 眼 所 能 感觉 到 的 亮度 的 
范围 。 由 于 眼睛 的 感光 作用 可 以 随 外 界 光 的 ” 汇 
强 弱 而 自动 调节 ， 所 以 ， 人 眼 的 视觉 范围 极 
宽 ， 从 千 分 之 几 直 到 几 百 万 坎 「 德 拉 ] 每 平 
方 米 。 但 人 眼 不 能 同时 感受 这 么 宽 的 亮度 范 
围 ， 当 人 有 眼 适应 了 某 一 环境 的 平均 亮度 之 后 ， 
所 能 感觉 的 亮度 范围 将 变 小 。 这 主要 是 依靠 
了 瞳孔 和 光敏 细胞 的 调节 作用 。 有 瞳孔 根据 外 
界 光 的 强 弱 调节 其 大 小 ， 使 射 到 视网膜 上 的 
光 通 量 尽 可 能 是 适中 的 。 在 强 光 和 弱 光 下 ， 亮度 (cdnmn2) 
分 别 由 锥 状 细胞 和 杆 状 细胞 作用 ， 而 后 者 的 b) 
灵敏 度 是 前 者 的 10000 倍 。 图 1-7b 所 示 的 两 图 1-7 人 有 眼 的 亮度 感觉 特性 
条 交叉 曲线 ， 分 别 表示 杆 状 细胞 和 锥 状 细胞 察觉 亮度 变化 的 关系 。 

在 不 同 的 亮度 环境 下 ， 人 有 眼 对 于 同一 实际 亮度 所 产生 的 相对 亮度 感觉 是 不 相同 的 。 例 如 同 
一 电灯 ， 在 白天 和 黑夜 它 对 人 有 眼 产生 的 相对 亮度 感觉 是 不 相同 的 。 通 常 ， 在 适当 的 平均 亮度 下 ， 
能 分 辨 的 最 大 亮度 与 最 小 亮度 之 比 约 为 1000 : 1。 当 平均 亮度 很 低 时 ， 这 个 比值 只 有 10 : 1。 例 
如 ， 晴 朗 的 白天 ， 环 境 亮 度 约 为 10000cd/m ”， 人 有 眼 可 分 辨 的 亮度 范围 为 200 ~ 20000cd/m， 
低 于 200cd/m 的 亮度 引起 黑色 感觉 。 而 在 夜间 ， 环 境 亮 度 为 30cd/m 时 ， 可 分 辨 的 亮度 范围 
只 为 1 ~200cd/m ， 这 时 100cd/m 的 亮度 就 引起 相当 亮 的 感觉 ， 只 有 低 于 1ed/m 的 亮度 才 引 起 黑 
色 感 觉 。 图 1-7b 的 曲线 也 说 明了 这 一 点 ， 当 人 了 眼 分 别 适应 了 4、B、C 点 的 环境 亮度 时 ， 人 有 眼 感觉 
到 “ 白 ” 和 “ 黑 ” 的 范围 如 虚线 所 示 ， 它 们 所 对 应 的 实际 亮度 范围 比 人 眼 的 视觉 范围 小 很 多 。 
并 且 4 点 的 实际 亮度 对 于 适应 了 B 点 亮度 的 眼睛 来 说 感觉 很 瞳 ， 而 对 于 适应 了 C 点 亮度 的 眼睛 
来 说 ， 却 感觉 很 亮 。 

人 眼 的 这 种 视觉 特性 具有 很 重要 的 实际 意义 。 一 方面 ， 重 现 图 像 的 亮度 不 需要 等 于 实际 景 
象 的 亮度 ， 只 需要 保持 二 者 的 最 大 亮度 B,, 和 最 小 亮度 Bi, 之 比值 C 不 变 。 此 比值 C= BB 
称 为 对 比 度 。 另 一 方面 ， 对 于 人 有 眼 不 能 察觉 的 亮度 差别 ， 在 重 现 图 像 时 也 不 必 精 确 复 制 出 来 ， 只 
要 保证 重 现 图 像 和 原 景物 有 相同 的 亮度 层次 。 简 而 言 之 ， 只 要 重 现 图 像 与 原 景 象 对 人 眼 主 观感 
沉 具 有 相同 的 对 比 度 和 亮度 层次 ， 就 能 给 人 以 真实 的 感觉 。 正 因为 如 此 ， 电 影 和 电视 中 的 景物 实 
际 上 并 不 反映 实景 亮度 ， 却 能 给 人 以 真实 的 亮度 感觉 。 


1.3.3 ”人 了 眼 的 分 辨 力 与 视觉 惰性 


1.3.2 节 已 经 指出 人 有 眼 觉察 亮度 最 小 变化 的 能 力 是 有 限 的 。 不 仅 如 此 ， 人 了 眼 对 黑白 细节 的 分 
辨 力也 是 有 限 的 。 另 外 ， 人 有 眼 主观 亮度 感觉 总 是 淖 后 于 实际 高 密度 的 变化 ， 即 存在 所 谓 “ 视 觉 
惰性 ” 。 下 面 分 别 加 以 说 明 。 









































杆 状 细胞 

































































































































































第 1 章 |13 











l= 


1. 人 眼 的 分 辨 力 

图 像 的 清晰 度 是 指 人 眼 对 图 像 细 节 是 否 清晰 的 主观 感觉 。 就 电视 图 像 清 晰 度 来 说 ， 它 受 两 
种 因素 的 限制 : 一 是 电视 系统 本 身分 解 像 素 的 能 力 ， 即 电视 系统 分 解 力 ; 二 是 人 眼 对 图 像 细节 的 
分 辨 力 。 由 于 人 了 眼 对 图 像 细 节 的 分 辨 能 力 是 有 限 的 ， 为 此 ， 电 视 系 统 分 解 力 只 要 达到 人 眼 的 极限 
分 辨 力 就 够 了 ， 超 过 这 一 极限 是 没有 必要 的 。 

人 有 眼 的 分 辨 力 是 指 人 在 观看 景物 时 人 有 眼 对 景物 细节 的 分 辨 能力。 当 人 了 眼 观 察 相 隔 一 定 距 离 
的 两 个 黑 点 时 ， 若 两 个 黑 点 靠 得 太 近 ， 则 人 眼 就 分 辨 不 出 有 两 个 黑 点 存在 ， 而 只 感觉 到 是 连 在 
起 的 一 个 点 。 这 种 现象 表明 人 有 眼 分 辩 景 物 细节 的 能 力 是 有 一 定 极限 的 。 

人 有 眼 对 被 观察 物体 上 刚 能 分 辩 的 
最 紧邻 两 黑 点 或 两 白 点 的 视角 6 的 倒 
数 称 为 人 眼 的 分 辨 力 或 视觉 锐 度 。 在 
图 1-8 中 , 亏 表 示人 有 眼 与 图 像 之 间 的 
距离 ，d 表示 能 分 辨 的 最 紧邻 两 黑 点 ~ 
之 间 的 距离 ，9 表示 人 有 眼 对 该 两 点 的 
视角 (也 称 分 辩 角 和 了 )。 若 9 以 分 为 单 
位 ， 则 根据 图 示 几 何 关 系 ， 得 到 

计 图 1-8 ”人 了 眼 的 分 辨 力 
2nL 360 x60 
或 0=T xc =3438 了 Cs 

人 有 眼 的 分 辨 力 (视觉 锐 度 ) 等 于 1/0。 男 外 ， 人 有 眼 的 分 辨 力 还 与 照明 强度 、 被 观察 物体 运动 
速度 、 景 物 的 相对 对 比 度 等 因素 有 关 。 

实验 表明 ， 人 有 眼 对 彩色 细节 的 分 辩 力 要 低 于 对 黑白 细节 的 分 辨 为 。 例 如 ， 若 把 人 眼 刚好 能 分 
辨 的 黑白 相间 的 条 纹 换 成 不 同 颜色 的 相间 条 纹 ， 则 眼睛 就 不 能 再 分 辨 出 条 纹 。 如 果 条 纹 是 红 绿 
相间 的 ， 则 人 有 眼 感觉 到 的 是 一 片 黄 色 。 不 但 人 眼 对 彩色 细节 的 分 辨 力 低 ， 而 且 对 不 同 彩色 的 细节 
分 辨 力也 不 一 样 。 知 人 有 眼 对 黑白 细节 的 分 辩 力 定 为 100% ， 则 对 其 他 彩色 细节 的 分 辨 力 如 表 1-1 
所 示 。 








为 
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表 1-1 人 了 眼 对 彩色 细节 的 分 辨 力 














细节 色 别 黑白 黑 绿 黑 红 黑 蓝 绿 红 红 蓝 绿 蓝 
分 辨 力 100% 94% 90% 26% 40% 23% 19% 





由 于 人 眼 对 彩色 细节 的 分 辨 力 低 ， 所 以 在 彩色 电视 系统 传送 彩色 图 像 时 ， 对 于 岁 像 的 细 ， 
可 只 传 黑 白 的 亮度 信号 ， 而 不 传 彩色 信息 。 这 就 是 所 谓 的 彩色 电视 大 面积 着 色 原 理 。 利 用 这 个 原 
理 可 以 节省 传输 的 频带 。 

2. 视觉 情 性 与 临界 闪烁 频率 

视觉 惰性 是 人 眼 的 重要 特性 之 一 ， 它 描述 了 主观 亮度 与 光 作 用 时 间 的 关系 。 当 一 定 强度 的 
光 突 然 作 用 于 视网膜 时 ， 人 有 眼 并 不 能 立即 产生 稳定 的 亮度 感觉 ， 而 须 经 过 一 个 短暂 过 程 后 才 会 
形成 稳定 的 亮度 感 党 。 另 外 ， 当 作用 于 人 有 眼 的 光 突 然 消 失 后 ， 亮 度 感觉 并 不 立即 消失 ， 也 需 经 过 
一 段 时 间 的 过 渡 过 程 。 光 线 消失 后 的 视觉 残留 现象 称 为 视觉 暂 留 或 视觉 残留 。 人 有 眼 视觉 暂 留 时 
间 ， 在 白天 约 为 0.02s， 夜 晚 约 为 0.2s。 人 有 眼 亮度 感觉 变化 滞后 于 实际 亮度 变化 ， 以 及 视觉 暂 留 
特性 ， 总 称 为 视觉 惰性 。 电 视 中 利用 人 眼 的 视觉 惰性 和 歼 光 粉 的 余晖 效应 以 及 电子 束 高 速 反 复 
运动 ， 使 屏幕 上 原本 不 连续 的 光亮 ,产生 整个 屏幕 同时 发 光 的 效果 。 
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像 : 3 视频 由 理 出 中) 


当 人 了 眼 受 周期 性 的 光 脉 冲 照 射 时 ， 如 果 光 脉冲 频率 不 高 ， 则 会 产生 一 明 一 暗 的 闪烁 感觉 ,长 
期 观看 容易 疲劳 。 如 果 将 光 脉 冲 频 率 提高 到 某 一 定 值 以 上 ， 由 于 视觉 惰性 ， 眼 睛 便 感觉 不 到 闪 
烁 ， 感 觉 到 的 是 一 种 均匀 的 连续 的 光 和 刺激。 刚好 不 引起 闪烁 感觉 的 最 低频 率 称 为 临界 闪烁 频率 ， 
它 主要 与 光 脉 冲 的 亮度 有 关 。 当 光 脉 冲 的 频率 大 于 临界 闪烁 频率 时 ， 感 觉 到 的 亮度 是 实际 亮度 
的 平均 值 。 
电影 和 电视 正 是 利用 视觉 惰性 产生 活动 图 像 的 。 在 电影 中 每 秒 播放 24 幅 固 定 的 画面 ， 而 电 
视 每 秒 传送 25 幅 或 30 幅 图 像 ， 由 于 人 眼 的 视觉 暂 留 特性 ， 从 而 在 大 脑 中 形成 了 连续 活动 的 图 
像 。 假设 人 眼 不 存在 视觉 惰性 ， 人 们 将 只 会 看 到 每 秒 跳动 24 次 静止 画面 的 电影 ， 如 同 观 看 快速 
变换 的 幻灯 片 一 样 ， 同 样 ， 电 视 也 将 没有 连续 活动 的 感觉 。 

为 了 不 产生 闪烁 感觉 ， 在 电影 中 采用 遮光 的 办 法 使 每 幅 画 面 放映 两 次 ,实际 上 相当 于 每 秒 
钟 放映 48 格 画面 ， 其 闪烁 频率 为 A =48Hz。 在 电视 中 ,采用 隔行 扫描 方式 ， 每 帧 ( 幅 ) 画面 用 
两 场 传送 ， 使 场 频 (/, =50Hz 或 60Hz) 高 于 临界 闪烁 频率 ， 因此 正常 的 电影 和 电视 都 不 会 出 现 
闪烁 感 党 ， 并 能 呈现 较 好 的 连续 活动 的 图 像 。 

应 当 指出 的 是 ， 人 有 眼 在 高 亮度 下 对 闪烁 的 敏感 程度 高 于 在 低 亮 度 下 的 情况 。 对 于 今天 的 高 
亮度 显示 器 而 言 ， 临 界 闪烁 频率 可 能 高 达 60 ~70Hz。 


1.4 图 像 信 号 的 数字 化 


由 于 人 腿 所 感觉 的 景物 是 连续 的 ， 所 形成 的 图 像 为 连续 图 像 ， 而 连续 图 像 信 号 是 无 法 直接 
在 数字 系统 中 实现 传输 或 存储 的 ， 因 此 需要 将 连续 图 像 信号 转化 为 离散 数字 信号 。 通 常人 们 称 
此 过 程 为 图 像 信号 的 数字 化 ， 主 要 包括 采样 、 量 化 和 编码 3 个 步 又。 

1. 图 像 信 号 的 表示 

彩色 图 像 信号 一 般 可 以 用 多 变量 函数 表示 为 

[=f(x,y,2,4,t) (1-26) 
式 中 ,x、y、z 表示 空间 某 点 的 坐标 ; 4 为 光 的 波长 ; 上 为 时 间 轴 坐标 。 
由 于 式 (1-26) 是 一 个 多 变量 的 函数 ， 不 易 分 析 ， 需 要 采用 一 些 有 效 的 方法 进行 降 维 。 对 于 
静态 的 二 维 图 像 而 言 ， 式 (1-26) 中 的 z 和 + 应 取 常 数 。 另 外 ,由 三 基色 原理 可 知 ，7 可 表示 为 3 
个 基色 分 量 的 和 ， 即 


为 

























































































































































































T=1, +I,+l, C27) 
于 是 
Tr =fr(%,y) 
Ls=fc(%,y) (1-28) 
J; =fa(%,y) 


由 于 式 (1-28) 中 的 每 个 彩色 分 量 都 可 以 看 作 一 幅 黑 白 图 像 ， 所 以 ， 所 有 对 于 黑白 图 像 的 理 
论 和 方法 都 适用 于 彩色 图 像 的 每 个 分 量 。 
2. 图 像 信 号 的 采样 
图 像 信 号 是 二 维 平面 空间 的 信号 ， 它 是 一 个 以 平面 上 的 点 坐标 (x，y) 作为 变量 的 函数 。 
例如 ， 黑 白 与 灰 度 图 像 是 用 二 维 平面 上 的 亮度 变化 函数 来 表示 的 ， 通常 记 为 /(x,，y)。 
图 像 信号 的 采样 就 是 图 像 在 二 维 空 间 上 的 离散 化 ， 也 就 是 用 空间 上 选取 部 分 点 的 亮度 值 来 
代表 图 像 ， 这 些 所 选取 的 点 称 为 采样 点 或 样 点 ， 即 像素 点 。 
在 二 维 平面 上 对 图 像 fx，y) 进行 空间 采样 时 ， 常 采用 均匀 采样 。 也 就 是 把 二 维 图 像 平面 
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l= 


在 x 方向 和 yy 方向 分 别 进行 等 间距 划分 ， 从 而 把 二 维 图 像 平 面 划 分 成 MxN 个 网 格 ， 并 使 各 网 格 
中 心 点 的 位 置 与 用 一 对 实 整数 表示 的 笛 卡 尔 
坐标 (i, 7 相对 应 。 二 维 图 像 平 面 上 所 有 
网 格 中 心 点 位 置 对 应 的 有 序 实 整 数 对 的 笛 卡 
尔 坐 标的 全 体 就 构成 了 该 幅 图 像 的 像素 点 集 
合 。 各 像素 点 的 亮度 值 ， 就 构成 一 个 离散 函 
数 f(i,7) ， 其 示意 图 如 图 1-9 所 示 。 如 果 是 
彩色 图 像 ， 则 是 以 R、G、B 三 基色 的 值 作 
为 分 量 的 二 维 矢 量 函 数 来 表示 ， 即 

fi = folis)) fli 

(1-29) 

在 进行 采样 时 ,采样 点 间隔 的 选取 是 一 个 非常 重要 的 问题 ， 它 决定 了 采样 后 图 像 的 质量 ， 即 
忠实 于 原 图 像 的 程度 。 与 一 维 信号 一 样 ， 二 维 图 像 信号 的 采样 也 要 遵循 采样 定理 。 

据 分 析 表 明 ， 图 像 中 景物 的 复杂 程度 是 有 限 的 。 通 常 ， 图 像 中 大 部 分 区 域内 的 内 容 变化 
不 大 ， 而 且 人 有 眼 对 空间 频率 上 的 复杂 程度 (频率 ) 的 分 辨 能力 有 一 定 的 局 限 性 ， 因 而 从 频率 
域 上 来 观察 图 像 时 ， 大 多 数 情况 下 其 频谱 局 限 在 一 定 的 范围 之 内 。 如 图 1- 10 所 示 ， 一 个 模拟 信 
号 f(x,y) 的 侍 里 叶 频 谱 为 (nw，v)， 如 果 其 水 平方 向 的 最 大 空间 频率 为 VU,， 垂直 方向 的 最 大 
空间 频率 为 V,， 那 么 采样 后 的 图 像 信 号 f(i,j) 的 频谱 是 原 频谱 (nw,，v) 沿 w 轴 和 w 轴 分 别 以 


A = 六，Av= 入 ;为 间隔 无 限 地 周期 重复 的 结果 ， 如 图 1-10e 所 示 。 从 图 中 可 以 看 出 ， 只 要 水 平 
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采样 列 
































图 1-9 图 像 信号 的 采样 示意 图 
















































































和 垂直 方向 的 采样 频率 分 别 为 we> 2U。 和 An>2T.,， 即 水 平 采样 间隔 Ax< 寺 -和 垂直 采样 间隔 








Ay <7-， 那 么 采样 后 的 图 像 信号 频谱 就 不 会 出 现 泥 牙 。 因 此 ， 通 常 在 进行 采样 之 前 图 像 信号 首 
先 经 过 一 个 低 通 滤波 器 ,使 其 成 为 一 个 频带 受 限 信号 。 当 以 满足 上 述 条 件 的 采样 间隔 进行 采样 
时 ,采样 后 的 图 像 频 谱 不 会 出 现 混 又 的 现象 ， 这 样 可 以 利用 一 个 低 通 滤波 带 将 原 图 像 频谱 滤 出 ， 
从 而 可 无 失真 地 重建 原 图 像 ， 这 就 是 二 维 采样 定理 ， 也 称 为 二 维 奈奈 斯 特 采 样 定理 。 





















































DJ Fu, v) 





a) b) 
图 1-10 采样 图 像 的 频谱 
在 实际 中 ， 为 了 减少 数字 化 后 的 图 像 数 据 量 ， 常 采用 降低 采样 频率 的 办 法 。 当 采样 频率 小 于 
奈 奎 斯 特 采 样 频率 时 ,通常 称 其 为 亚 采 样 。 此 时 采样 图 像 频谱 中 的 各 次 谐 波 之 间 将 出 现 混 番 的 
现象 ， 无 法 利用 低 通 滤波 器 将 原 图 像 的 频谱 分 量 取 出 。 因 此 在 采用 亚 采 样 进行 图 像 数 字 化 时 ， 会 
给 系统 引入 一 定 的 混 释 失真 。 
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像 : 5 由 理 并 中) 
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3. 图 像 信号 的 量化 

模拟 图 像 经 过 采样 后 ， 在 时 间 和 空间 上 离散 化 为 像素 。 但 采样 所 得 的 像素 值 仍 是 连续 量 。 把 
采样 后 所 得 的 各 像素 值 从 模拟 量 到 离散 量 的 转换 称 为 图 像 信号 的 量化 。 图 1-11a 说 明了 量化 过 
程 。 若 连续 像素 值 用 z 来 表示 ， 对 于 满足 z 和 z<z, 的 z 值 ， 都 量化 为 整数 9,。9, 称 为 像素 的 灰 度 
级 ,z 与 4 的 差 称 为 量化 误差 。 一 般 ， 像 素 值 量化 后 用 一 个 字 节 〈 即 8bit) 来 表示 ， 如 图 1-11b 
所 示 ， 把 由 黑 一 灰 一 白 的 连续 变化 的 灰 度 值 ， 量 化 为 0 ~255 共 256 级 灰 度 级 。 
连续 灰 度 值 量化 为 离散 灰 度 级 的 方法 有 两 
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种 ， 一 种 是 等 间隔 量化 ， 也 称 为 均匀 量化 或 线 3 
性 量化 ; 另 一 种 是 非 等 间隔 量化 ， 也 称 为 非 均 “| - 





匀 量 化 。 均 匀 量 化 就 是 简单 地 把 采样 值 的 灰 — i 
范围 等 间隔 地 分 割 并 进行 量化 。 对 于 像素 灰 度 。 2 i ee 
值 在 黑 一 白 范围 较 均匀 分 布 的 图 像 ， 这 种 量化 
方法 可 以 得 到 较 小 的 量化 误差 。 为 了 减 小 量化 一 一 。 
误差 引入 了 非 均 匀 量 化 的 方法 。 非 均匀 量化 ”连续 交 度 值 量化 值 (整数 人 ) 
是 依据 一 幅 图 像 具体 的 灰 度 值 分 布 的 概率 密度 是 
函数 ， 按 总 的 量化 误差 最 小 的 原则 来 进行 量 全 
化 。 具 体 做 法 是 对 图 像 中 像素 灰 度 值 频繁 出 现 
的 灰 度 值 范围 ， 量 化 间隔 取 小 一 些 ， 而 对 那些 像素 灰 度 值 极 少 出 现 的 灰 度 值 范围 ， 则 量化 间隔 取 
大 一 些 。 由 于 图 像 灰 度 值 的 概率 分 布 密度 函数 因 图 像 不 同 而 异 ， 所 以 不 可 能 找到 一 个 适用 于 各 
种 不 同 图 像 的 最 佳 非 等 间隔 量化 方案 。 因 此 ， 实 用 上 一 般 都 采用 等 间隔 量化 。 

图 1-12a 所 示 的 连续 灰 度 图 像 ， 经 采样 、 
量化 后 得 到 的 数字 图 像 如 图 1-12b 所 示 。 

4. 采样 与 量化 精度 对 图 像 质量 的 影响 

一 幅 图 像 在 采样 时 ， 行 、 列 的 采样 点 
与 量化 时 每 个 像素 量化 的 级 数 ， 既 影响 数 
字 图 像 的 质量 ， 也 影响 到 该 数字 图 像 数据 
量 的 大 小 。 假 定 图 像 的 采样 点 数 为 MxN 剧本 四 


个 ， 每 个 像素 的 量化 级 数 为 0， 一 般 0 总 一 | i — 
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是 取 为 2 的 整数 需 ， 即 0 =2"， 其 中 为 a) 连续 图 像 b) 对 应 图 像 a) 的 数字 图 像 
量化 精度 或 量化 位 数 ， 则 存储 一 幅 数 字 图 到 1-12 ”连续 图 像 与 数字 图 像 
像 所 需 的 字 节 数 B 为 

B=MxNx 训 (1-30) 





对 一 幅 大 小 固定 的 图 像 ， 当 量化 级 数 0 一 定时 ,采样 点 数 M xN 对 图 像 质量 有 着 显著 的 影 
啊 。 一 般 来 说 ， 采 样 点 数 越 多 (或 采样 间隔 越 小 )， 所 得 图 像 像 素数 就 越 多 ,空间 分 辨 率 就 越 
高 ， 图 像 质 量 就 越 好 ,但 数据 量 也 就 越 大 ; 当 采 样 点 数 减 少 (或 采样 间隔 增 大 ) 时 ， 所 得 图 像 
像素 数 减 少 ， 空 间 分 辨 率 降 低 ， 图 像 质 量 下 降 ， 严 重 时 出 现 马赛 克 效 应 图 ， 如 图 1-13 所 示 。 

同 理 ， 当 图 像 的 采样 点 数 一 定 时 ， 采 用 不 同 量化 级 数 的 图 像 质量 也 不 一 样 。 量 化 级 数 越 多 ， 
所 得 图 像 层次 越 丰富 ， 灰 度 分 辨 率 就 越 高 ， 图 像 质 量 就 越 好 ,但 数据 量 也 就 越 大 ; 当量 化 级 数 减 
少时 ， 所 得 图 像 层 次 欠 丰 富 ， 灰 度 分 辨 率 低 ， 会 出 现 假 轮廓 现象 ， 图 像 质 量变 差 ， 量 化 级 数 最 小 
的 极端 情况 就 是 二 值 图 像 ， 如 图 1-14 所 示 。 
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对 于 彩色 图 像 ， 是 
按照 颜色 成 分 一 一 红 
(R)、 绿 (G)、 监 
(8B8) 分 别 进行 采样 和 
量化 。 若 各 种 颜色 成 分 
均 按 8bit 量化 ， 即 每 种 
颜色 量化 级 别 是 256， 
则 可 以 处 理 256 x256 x 
256 = 16777216 种 颜色 。 

一 般 来 说 ， 当 限定 
数字 图 像 的 大 小 时 ， 为 
了 得 到 质量 较 好 的 图 
像 ， 可 采用 如 下 原则 。 

1) 对 缓 变 的 图 像 ， 
应 该 采用 高 采样 率 、 细 
量化 ， 以 避免 假 轮廓 。 














1-13 采样 点 数 变 化 对 图 像 质 量 的 影响 





器 











2) 对 细节 丰富 的 图 像 ， 应 该 采用 低 采 样 率 、 粗 量化 ， 以 避免 模糊 〈 混 三 ) 。 





5. 数字 图 像 表 示 
连续 图 像 f{(x，y) 经 











图 1-14 量化 级 数 变 化 对 图 像 质量 的 影响 


经 采样 后 ， 坐 标 (x，y) 的 值 已 经 变 成 离散 量 (i,j) 。 数 字 图 像 可 以 用 一 





个 离散 量 g(i,j7) 组 成 的 矩阵 〈 即 二 维 数 组 ) 来 表示 。 一 幅 MxNN 个 像素 的 数字 图 像 ， 可 以 用 
行 、N 列 的 矩阵 G 来 表示 ， 即 


8(0,0) 8g(0,1) i g(0,N-1) 
Ge HD) aD el a ee 
g(M-1,0) g(M-1,1) … ege(M-1,N-1) 


数字 图 像 中 的 每 个 像素 都 对 应 于 和 矩阵 中 相应 的 元 素 。 
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在 计算 机 中 把 数字 图 像 表 示 为 矩阵 后 ， 就 可 以 用 和 矩阵 理论 和 其 他 一 些 数 学 方法 来 对 数字 图 
像 进行 分 析 和 处 理 了 。 


1.5 彩色 模拟 电视 制式 


彩色 电视 制式 是 指 对 彩色 电视 信号 进行 处 理 和 传输 的 特定 方式 。 在 黑白 模拟 电视 和 彩色 模 
拟 电 视 发 展 过程 中 ， 分 别 出 现 过 多 种 不 同 的 制式 。 彩 色 模 拟 电视 是 在 黑白 模拟 电视 的 基础 上 发 
展 起 来 的 ， 甚 基本 图 像 信号 是 红 (R)、 绿 (G)、 蓝 (8B) 三 个 基色 信号 ， 不 同 于 黑白 电视 只 
一 个 反映 网 像 亮 度 的 信号 。 

在 彩色 模拟 电视 的 发 展 过 程 中 ， 黑 白 模拟 电视 与 彩色 模拟 电视 必然 会 在 一 段 时 间 内 并 存 ， 
所 以 提出 彩色 电视 与 黑白 电视 的 “兼容 ”问题 。 所 谓 的 兼容 ， 就 是 黑白 电视 机 可 以 收看 到 彩 
色 电 视 系统 所 发 射 的 彩色 电视 信号 ( 当然 ， 所 看 到 的 图 像 仍 然 是 黑白 图 像 ); 彩色 电视 机 可 以 
收看 到 黑白 电视 系统 所 发 射 的 黑白 电视 信号 ( 当然， 所 看 到 的 图 像 也 是 黑白 图 像 ) 。 

按 信号 传输 的 方式 和 显示 的 时 间 不 同 ， 彩 色 电 视 制式 可 以 分 为 同时 制 、 顺 序 制 以 及 顺序 一 
同时 制 3 种 。 在 顺序 制 中 ， 摄 像 机 输出 的 红 (R)、 绿 (G)、 蓝 (8) 三 基色 图 像 信 号 按 一 定 顺 
序 轮换 传送 到 显示 器 ， 利 用 人 眼 的 视觉 暂 留 特性 将 三 基色 图 像 混 合成 彩色 图 像 。 顺 序 制 的 优点 
是 设备 简单 ， 彩 色 图 像 质 量 较 好 ， 但 是 兼容 性 很 差 或 者 不 能 兼容 。 为 了 克服 顺序 制 的 缺点 而 出 现 
了 同时 制 ， 它 将 红 (R)、 绿 (G)、 蓝 (8B) 三 基色 信和 号 编码 成 亮度 信号 和 色 度 信号 来 同时 传送 ， 
经 过 解码 得 出 红 (R)、 绿 (CG)、 蓝 (8) 三 基色 信号 ， 显 像 时 空间 距离 很 近 的 三 个 基色 同时 显 
示 ， 即 利用 空间 混 色 原理 合成 彩色 图 像 。 同 时 制 的 优点 是 可 以 兼容 ， 图 像 质量 较 好 ， 但 是 设备 复 
杂 ， 亮 度 与 色 度 信号 往往 存在 相互 干 捧 。 顺 序 一 同时 制 是 上 述 两 种 制式 的 结合 ， 即 传送 的 信息 中 
有 既 有 顺序 轮换 传送 的 部 分 ， 又 有 同时 连续 传送 的 部 分 。 例 如 ， 可 将 一 个 基色 信和 号 经 常 传送 ， 而 将 
另 两 个 基色 信号 依次 顺序 传送 ， 然 后 在 显示 器 中 合成 彩色 图 像 。 顺 序 一 同时 制 的 优 缺 点 基本 上 
与 同时 制 相 似 。 在 显 像 时 ，3 种 制式 都 利用 了 空间 混 色 原 理 ， 顺 序 制 还 利用 了 时 间 混 色 原 理 。 显 
然 , 具有 兼容 性 的 彩色 广播 电视 只 能 采用 同时 制 或 顺序 一 同时 制 ， 而 顺序 制 一 般 用 于 非 兼 容 制 
的 彩色 电视 中 。 

彩色 电视 系统 对 红 (R)、 绿 (G)、 蓝 (8) 三 基色 信和 号 或 由 其 生成 的 亮度 和 色差 信号 的 不 
同 处理 和 传输 方式 ， 构 成 了 不 同 的 彩色 电视 制式 。 为 了 把 彩色 电视 信号 的 三 基色 分 量 由 发 送 端 
传送 到 接收 端 ， 最 简单 的 办 法 是 用 三 个 通道 (有 线 或 无 线 ) 分 别 把 R、G、B 三 个 基色 信号 传送 
到 接收 端 ， 在 接收 端 再 分 别 用 尺 、G、B 三 个 电信 号 去 控制 彩色 显示 屏 ， 从 而 得 到 重 现 的 彩色 图 
像 。 然 而 ， 这 种 传输 方式 不 仅 会 占用 较 大 的 传输 带宽 ， 也 无 法 实现 与 黑白 电视 的 “兼容 ”。 

为 了 实现 彩色 电视 与 黑白 电视 的 兼容 以 及 压缩 传输 频带 ， 在 实际 的 彩色 电视 系统 中 ， 通 常 
将 RG、B 三 个 基色 信号 转换 成 亮度 (了 ) 信号 和 两 个 色差 (BB -Y、R -7Y) 信号 ， 其 中 亮度 
(了 ) 信号 与 黑白 电视 图 像 信号 一 样 ， 黑 白 电 视 机 接收 到 亮度 信号 后 能 显示 黑白 画面 ， 两 个 色差 
(B8-Y、R-Y) 信号 包含 了 彩色 图 像 的 色调 与 饱和 度 等 信息 ， 和 亮度 信号 组 合 可 还 原 出 R、G、 
B 三 个 基色 信号 ， 彩 色 电 视 机 接收 到 两 个 色差 信号 与 亮度 信号 后 能 显示 彩色 图 像 。 因 此 ， 兼 容 制 
彩色 电视 除 传送 相同 于 黑白 电视 的 亮度 信号 和 伴音 信和 号外， 还 在 相同 的 频带 内 传送 色 度 信号 。 
色 度 信号 是 两 个 色差 信号 对 两 个 色 副 载波 信号 进行 调制 而 成 的 。 为 防止 色差 信号 的 调制 过 载 ， 
将 (B- 了 Y)、(R-Y) 进行 压缩 ,分 别 用 U、V 表示 。 

按照 对 亮度 信号 和 色差 信号 的 处 理 与 传输 方式 的 不 同 ， 国 际 上 形成 了 三 种 兼容 制 彩色 电视 
制式 NTSC 制 、PAL 制 和 SECAM 制 。 对 于 NTSC 制 ， 由 于 选用 的 色 副 载波 的 频率 不 同 ， 还 可 分 
为 NTSC4.43 和 NTSC3. 58 两 种 。 
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1) NTSC 制 : 它 属于 同时 制 ， 由 美国 于 1953 年 颁布 。 日 本 、 加 拿 大 、 韩 国 等 采用 这 种 制式 。 

2) PAL 制 : 它 属 于 同时 制 ， 由 联邦 德国 于 1963 年 颁布 。 中 国 大 陆 、 中 国 香港 特别 行政 区 以 
及 英国 、 澳 大 利 亚 、 新 西 兰 、 北 欧 各 国 也 都 采用 这 种 制式 。 

3) SECAM 制 : 它 属于 顺序 一 同时 制 ， 由 法 国 于 1967 年 颁布 。 俄 罗斯 和 东欧 各 国 也 都 采 
用 它 。 

这 三 种 兼容 制 彩色 电视 制式 的 共同 点 是 都 传输 亮度 信号 和 两 个 色差 信号 ; 其 不 同 点 是 两 
个 色差 信号 对 副 载波 采用 不 同 的 调制 方式 。 换 句 话 说 ， 由 两 个 色差 信号 以 不 同方 式 对 副 载 波 
调制 而 形成 的 组 合 已 调 波 信号 体现 了 制式 的 主要 特点 ， 这 个 已 调 副 载波 信号 称 为 色 度 信号 。 


1.5.1 NTSC 制 





de 













































































NTSC (National Television System Committee ， 国 家 电视 制式 委员 会 ) 制 是 1953 年 由 美国 国家 
电视 制式 委员 会 指定 的 一 种 兼容 制 彩色 电视 制式 ， 它 对 两 个 色差 信号 采用 了 正 交 平衡 调幅 技术 ， 
因此 又 称 为 正 交 平衡 调幅 制 。 

1. 平衡 调幅 

普通 调幅 的 数学 表达 式 为 

Uy = (U,+ Ucos(2t)cosat= Ucosat+ DU,cos(o + (2)t+ DU,cos(o —02)1 (1-32) 

平衡 调幅 就 是 抑制 载波 的 调幅 ， 简 称 抑 载 调幅 。 换 载 调 幅 的 数学 表达 式 为 

Usu = U,,cos(2t cosat = FUscos(& + (2)t+ FUscos(w — (2)t (1-33) 


可 见 平衡 调幅 信号 正好 是 调制 信号 UcosQ21: 和 被 调制 信号 cosat 的 乘积 。 它 与 普通 调幅 的 区 
别 在 于 没有 载 频 分 量 。 

如 果 两 个 色差 信号 采用 平衡 调幅 ， 则 色 度 信和 号 的 表达 式 为 (B -了 )coswjt 和 (RY)cosw,t。 

其 优点 在 于 : 

1) 传送 黑白 图 像 时 ， 由 于 B-Y=R-Y=0， 则 色 度 信号 为 零 ， 显然 对 亮度 信号 无 干扰 。 

2) 传送 彩色 图 像 时 ， 因 为 没有 载 频 分 量 ， 从 而 减少 了 色 度 信号 的 能 量 和 减轻 了 色 度 信号 对 
亮度 信和 号 的 干扰 。 

2. 正 交 平衡 调幅 

如 果 将 两 个 1.3MHz 的 色差 信号 (R-Y) 和 “(BY)， 分 别 调制 在 两 个 载 频 上 ， 其 色 度 信号 
带宽 为 2. 6MHz x2 =5.2MHz， 它 与 亮度 信号 重合 过 宽 ， 亮度 与 色 度 信号 间 的 干扰 将 相当 严重 。 
如 果 采 用 正 交 调 幅 就 可 以 克服 这 一 缺点 。 

正 交 调幅 是 将 两 个 色差 信号 (R-Y) 和 (83 -六 分 别 调制 在 频率 相同 、 相 位 差 90° 的 两 个 
副 载 波 上 ， 再 将 两 个 输出 加 在 一 起 。 在 接收 机 中 ， 则 根据 相位 的 不 同 ， 从 合成 的 副 载 波 已 调 信 和 号 
中 可 分 别 取出 两 个 色差 信和 号。 

色差 信号 正 交 平 衡 调幅 的 原理 框图 如 图 1-15 所 示 。 其 中 ,共有 两 个 平衡 调幅 器 ， 一 个 是 
(R-Y) 调制 器 ， 副 载波 为 cosw.t; 男 一 个 是 (B -7 了 ) 调制 器 ， 副 载波 为 sinw.t。 若 将 两 者 的 输 
出 线性 相 加 ， 则 得 到 色 度 信和 号 

e.(t)=(B-Y)sinwt+(R-Y)coswt=C sin(w.t +0) (1-34) 

式 中 ，C 代表 色 度 信号 e.(t) 的 振幅 ; 9 是 e.(1) 的 相 角 。 图 1-15b 示 出 了 合成 信号 与 两 个 平衡 
调幅 输出 之 间 的 矢量 关系 。 上 式 说 明 ， 色 度 信号 是 一 个 调幅 调 相 波 ， 其 振幅 变化 反映 了 色 饱 和 度 
的 变化 ; 而 相 角 9 与 两 个 色差 信号 的 比值 有 关 ， 对 不 同 的 色调 来 说 这 个 比值 是 不 同 的 ， 故 0 反映 
了 色调 的 变化 。 
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下山 












(R-Y) cos@st 


(R-Y) 
平衡 调制 
COswst 
可 ”[- 


(B-Y) 
平衡 调制 






sin@st 








(B-Y) sin Cost 


a) 


了 ) cos@stt 


(B-7) sin@st 


ec(D) 





b) 


图 1-15 正 交 平衡 调幅 


3. 同步 检 波 
在 接收 端 欲 从 式 (1-34) 所 示 








色 度 信 号 中 分 离 出 两 个 色差 信号 ， 不 能 采用 普通 检 波 ， 而 应 采 


用 同步 检 波 技术 ， 其 方法 是 将 色 度 信号 与 和 副 载 波 同 频 同 相 的 本 振 载 波 信 号 相 乘 。 例 如 ， 分 别 用 


cos@.t 和 sinw.t 去 乘 e.(1) ， 经 低 通 后 ， 则 分 别 可 得 到 (R-Y) 和 (B8 -六 。 同 步 检 波 电路 和 








a 





衡 调制 电路 相 类 似 。 现 用 数学 方法 证 明 上 述 解 调 过 程 ， 例 如 用 cosw.t 去 乘 e.(t) 时 ， 有 


e,(t)cos@wt =(R-Y)cos2w.t+(B- 





= 3 (RD+ 3 (R Y)eos2ot+ 3(B-Y)sin2o.t 


Y)sinw.tcosow.t 








经 低 通 
(BB 一 了 ) 。 同 到 














EE， 用 sinw.t 去 乘 e (为 ， 经 低 通 滤波 后 





NTSC 制 的 主要 优点 是 色 度 信号 的 组 成 方式 最 简单 ， 因 而 


滤波 器 滤 去 二 倍 频 载波 信号 ， 可 得 到 同 相 分 量 的 





， 可 得 到 (B-Y)。 


电视 接收 机 解码 









































下 度 (R -了 )， 而 抑制 了 正 交 分 


(1-35) 
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电路 简单 。 但 其 缺 








点 是 对 色 度 信号 相位 失真 敏感 ， 即 色 度 信 号 的 相位 失真 容易 产生 彩色 图 像 色调 畸变 ， 因 此 NTSC 














制 电视 机 都 有 一 个 色调 手动 探 人 
29. 97 帧 (29. 97 frame/s) ， 每 帧 的 扫描 行 数 为 525， 
美国 、 加 拿 大 等 大 部 分 西半球 国家 以 及 日 本 、 韩 国 
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1.5.2 PAL 制 





PAL (Phase Alternating Line， 逐 行 倒 相 ) 并 























出 电路 ， 供 用 户 选 择 使 用 。 该 制式 采 月 


制 是 1962 年 由 前 联邦 德国 德 得 

















画面 


菲律宾 和 中 














国 的 台湾 等 。 


长 


























隔行 扫描 方式 ， 帧 率 为 每 秒 
幅 型 比 为 4 : 3。 采 用 这 种 制式 的 主要 有 


风 根 (Telefunken) 











公司 研制 成 功 的 一 种 兼容 制 彩色 电视 制式 ， 它 对 两 个 色 副 载波 信号 轮流 倒 相 后 再 采用 正 交 平衡 
调幅 的 技术 ， 克 服 了 NTSC 制 对 相位 失真 敏感 造成 色彩 失真 的 缺点 。 

与 NTSC 制 不 同 ，PAL 制 采 用 YUV 彩色 空间 模型 ， 在 传送 色 度 信号 时 ， 它 使 色 度 信号 中 的 
Usinw.i 分 量 保持 不 变 ， 使 Vcosw.i 分 量 逐 行 倒 相 。 例 如 ， 传 送 第 n 行 时 为 + Veosw,t， 传 送 第 n+ 
1 行 时 为 - Veosw.t1， 传 送 第 n+2 行 时 为 + Veos@.t，……: ， 依 次 类 推 ， 逐 行 交 蔡 倒 相传 送 。 因 此 ， 
PAL 制 又 称 为 逐 行 倒 相 正 交 平衡 调幅 制 。 

亮度 信号 了 和 两 个 色差 信号 U、V 与 RR、G、B 信和 号 的 转换 关系 如 下 : 

Y=0.299R +0.587G +0.114B 
U=0.493(B-Y) = -0.147R-0.289G+0.437B (1-36) 


V=0.877(R-Y) =0.615R— 


0. 515G -0. 100B 
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在 接收 端 ， 为 检 出 正确 V 信 和 号， 必须 使 送 入 V 信 号 同步 检 波 器 的 副 载 波 相 位 也 和 发 送 端 一 样 
进行 逐 行 倒 相 ， 检 波 以 后 的 了 信号 就 恢复 原来 状态 了 。 

与 NTSC 制 相 比较 ，PAL 制 有 下 列 特点 。 

1) 克服 了 NTSC 制 对 相位 失真 敏感 的 缺点 ， 使 色 度 信号 在 传输 过 程 中 的 相位 失真 对 重 现 彩 
色 的 影响 减少 ， 因 此 ， 对 传输 设备 和 接收 机 的 技术 指标 要 求 ，PAL 制 比 NTSC 制 低 。 

2) 比 NTSC 制 抗 多 径 接收 性 能 好 。 

3) PAL 制 相 对 NTSC 制 而 言 ， 色 度 信号 的 正 交 失真 不 敏感 ， 并 且 对 色 度 信号 部 分 抑制 边 带 
而 引起 的 失真 也 不 敏感 。 

4) PAL 接收 机 中 采用 梳 状 滤波 器 ， 可 使 亮度 串 色 的 幅度 下 降 34B ， 并 且 可 以 提高 彩色 信 噪 
比 3dB。 

5) 电路 、 设 备 较 NTSC 制 复杂 ， 接 收 机 价格 较 高 。 

该 制式 采用 隔行 扫描 方式 ， 帧 率 为 每 秒 25 帧 (25frame/s) ， 每 帧 的 扫描 行 数 为 625， 画 面 幅 
型 比 为 4 :3。 人 德国、 英国、 中国 大 陆 及 香港 、 澳 大 利 亚 、 新 西 兰 、 新 加 坡 等 采用 这 种 制式 。PAL 
制式 中 根据 不 同 的 参数 细节 ， 又 可 以 进一步 划分 为 G、I、D 等 制式 ， 其 中 PAL-D 制 是 中 国 大 陆 
采用 的 制式 ，PAL-I 是 英国 、 中 国 香港 、 中 国 澳门 采用 的 制式 。 


1.5.3” SECAM 制 








像 己 视频 处 理 

































































SECAM 是 法 文 Séquential Couleur Avec Mémoire 的 缩写 词 ， 意 为 顺序 传送 彩色 信和 号 与 存储 复 
用 。SECAM 制 是 由 法 国 工程 师 享 利 . 弗 朗 斯 提出 ，1967 年 制定 的 一 种 兼容 制 彩 色 电 视 制 式 。 它 
也 是 为 了 克服 NTSC 制 对 相位 失真 敏感 而 设计 的 。SECAM 制 将 两 个 色差 信号 (R-Y) 和 (B- 
7) 对 两 个 频率 不 同 的 副 载波 进行 调频 ， 并 逐 行 轮换 后 插 和 人 到 亮度 信号 的 高 频 端 ， 形 成 彩色 电视 
信和 号。 即 在 信号 传输 过 程 中 ， 亮 度 信号 每 行 传送 ， 而 两 个 色差 信号 则 逐 行 轮换 传送 ， 即 用 行 错 开 
传输 时 间 的 办 法 来 避免 同时 传输 两 个 色差 信号 时 所 产生 的 串 色 以 及 由 其 造成 的 彩色 失真 。 因 此 ， 
SECAM 制 又 称 “调频 行 轮换 制 ”。 

因为 在 接收 机 中 必须 同时 存在 Y、(R-Y) 和 (38-7) 三 个 信号 才能 解 调 出 三 基色 信号 R、 
G、B， 所 以 在 SECAM 制 中 也 采用 了 超声 延 时 线 。 它 将 上 一 行 的 色差 信息 存储 一 行 的 时 间 ， 然 后 
与 这 一 行 传送 的 色差 信息 使 用 一 次 ; 这 一 行 传送 的 信息 又 被 存储 下 来 ， 再 与 下 一 行 传送 的 信息 
使 用 一 次 。 这 样 ， 每 行 所 传送 的 色差 信息 均 使 用 两 次 ， 就 把 两 个 顺序 传送 的 色差 信号 变 成 同时 出 
现 的 色差 信和 号。 将 两 个 色差 信号 和 YY 信号 送 入 矩阵 电路 ， 就 解 出 了 RR、G、B 信和 号。 

在 SECAM 制 中 ， 由 于 每 行 只 传送 一 个 色差 信号 ， 因 而 色 度 信号 的 传送 不 必 采 用 正 交 平衡 调 
幅 的 方式 ， 而 采用 一 般 的 调频 方式 。 这 样 ， 在 传输 中 引入 的 微分 相位 失真 对 大 面积 彩色 的 影响 较 
小 ， 使 微分 相位 失真 容 限 达到 +40°。 由 于 调频 信号 在 检 波 之 前 可 进行 限 幅 ， 所 以 色 度 信号 几乎 
不 受 幅 度 失真 的 影响 ， 使 微分 增益 失真 容 限 达 65% 。 同 时 ， 在 接收 机 中 ， 可 以 直接 对 色差 信和 号 
进行 调频 检 波 ， 不 必 再 恢复 彩色 副 载 波 。SECAM 制 的 接收 机 比 NTSC 制 复 杂 ， 比 PAL 制 简单 。 
但 副 载波 调频 也 带 来 下 列 问题 。 

1) 副 载波 调频 信和 号 的 频谱 比较 复杂 ， 不 能 和 亮度 信号 的 频谱 进行 交错 间 置 ， 无 法 避免 色 度 
信号 与 亮度 信号 的 相互 干扰 。 

2) 对 于 调频 副 载 波 ， 其 周期 不 是 常数 ， 不 能 采用 相 邻 行 和 相 邻 场 的 副 载 波 亮 暗 点 的 相互 抵 
消 ， 为 此 必须 采取 一 些 措施 ， 如 将 副 载波 三 行 倒 相 一 次 ， 使 每 场 中 的 副 载波 干扰 光 点 互相 错开 ， 
而 且 每 场 也 倒 相 一 次 ， 使 相 邻 两 场 的 副 载 波 干扰 光 点 互相 抵消 。 

3) 即使 没有 色 度 信号 时 ， 副 载波 依然 存在 ， 所 以 副 载波 对 亮度 信号 的 干扰 始终 存在 。 
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像 : 5 由理 出 中) 


该 制式 采用 隔行 扫描 方式 ， 帧 率 为 每 秒 25 帧 (25 frame/s) ， 每 帧 的 扫描 行 数 为 625 ， 画 面 
比 为 4 : 3。 使 用 SECAM 制 的 主要 有 法 国 、 俄 罗斯 、 埃 及 以 及 非洲 的 一 些 法 语系 国家 。 
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幅 型 





1.6 视频 信号 的 数字 化 





自然 的 视频 信号 在 空间 域 及 时 间 域 中 都 是 连续 的 ， 模 拟 视频 信号 体系 的 基本 特点 是 用 扫 
描 方式 把 三 维 视频 信号 转换 为 一 维 随 时 间 变 化 的 信号 。 对 模拟 视频 信号 的 采样 包括 以 下 三 个 
es 

离散 的 帧 ; 然后 ， 在 每 一 帧 图 像 内 又 在 垂直 方向 上 (y 维 ) 将 图 像 离 散 为 一 条 一 条 的 扫描 行 ， 
实际 是 在 垂直 方向 上 进行 空间 采样 ; 最 后 ， 对 每 一 
从 而 把 图 像 分 成 若干 方形 网 格 ， 而 每 一 个 网 格 就 称 为 一 个 像素 。 其 结果 是 数字 电视 图 像 是 由 
一 系列 样 点 组 成 ， 每 个 样 点 与 数字 图 像 的 一 个 像 
素 对 应 。 像 素 是 组 成 数字 图 像 的 最 小 单位 。 这 样 ， 
数字 电视 图 像 帧 由 二 维 空间 排列 的 像素 点 阵 组 成 ， 
视频 序列 则 由 时 间 上 一 系列 数字 图 像 帧 组 成 ， 如 
图 1-16 所 示 。 

在 数字 电视 发 展 初期 ， 对 彩色 电视 信号 的 数字 
化 处 理 主 要 有 分 量 数字 编码 和 复合 数字 编码 两 种 方 
式 。 复 合 数字 编码 是 将 彩色 全 电视 信号 直接 进行 数 
字 化 ， 编 码 成 PCM 形式 。 由 于 采样 频率 必须 与 彩 a 
色 副 载波 频率 保持 一 定 的 整数 比例 关系 ， 而 不 同 彩 时 间 采 村 
色 电 视 制式 的 副 载 波 频 率 各 不 相同 ， 难 以 统一 ; 同 ”图 1-16 视频 序列 的 时 间 采 样 和 空间 采样 
时 采用 复合 数字 编码 时 由 采样 频率 和 副 载波 频率 间 
的 差 拍 造成 的 干扰 将 落 入 图 像 带宽 内 ， 会 影响 图 像 的 质量 。 随 着 数字 技术 的 飞速 发 展 ， 这 种 复合 
数字 编码 方式 已 经 被 淘汰 ， 目 前 已 全 部 采用 分 量 数字 编码 方式 ， 因 此 本 书 只 讨论 分 量 数字 编码 
方式 。 

分 量 数字 编码 方式 是 分 别 对 亮度 信号 Y 和 两 色差 信号 B -了 、R -了 分 别 进行 PCM 编码 。 

分 量 数字 编码 与 复合 数字 编码 相 比 有 下 列 优点 。 

1) 可 以 使 从 摄像 机 输出 到 发 射 机 输入 的 所 有 环节 ， 都 是 数字 信和 号 的 形式 ， 这 不 仅 避 免 了 
复合 数字 编码 时 因 反 复 解码 所 引起 的 质量 损伤 和 器 件 的 浪费 ， 而 且 编码 几乎 与 电视 制式 无 关 ， 
大 大 简化 了 国际 电视 节目 交换 的 过 程 。 加 之 它 可 以 使 得 625 行 /50 场 扫描 制式 与 $25 行 /60 场 
扫描 制式 适用 同一 种 标准 ， 这 为 建立 世界 统一 的 数字 编码 标准 铺 平 了 道路 。 

2) 在 现代 的 电视 节目 制作 技术 中 ， 后 期 制作 的 实时 预 处 理 十 分 重要 ， 常 用 的 静止 图 像 和 存 
TD oe nt a ee et ath 得 进 
行 数字 解码 ， 这 会 引起 图 像 的 质量 损伤 。 反 之 ， 由 于 分 量 编码 只 要 求 采样 频率 与 行 频 保持 一 定 的 
Pe 吉 构 ， 这 给 行 、 帧 间 的 信号 处 理 提 供 了 方便 。 

3) 对 了 Y、B-Y、R -了 信号 分 别 进行 编码 ， 在 传输 时 可 采用 时 分 复 用 方式 ， 不 会 像 复合 数字 
编码 那样 因 频 分 复 用 带 来 亮 、 色 串扰 ， 可 获得 高 质量 的 图 像 。 

4) 对 各 分 量 信 号 分 别 进行 PCM 编码 ， 亮 度 信号 和 色 度 信号 的 带宽 可 取得 高 些 或 低 些 ,便于 
制定 一 套 适用 于 各 种 图 像 质 量 需 要 的 可 互相 兼容 的 编码 标准 。 
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像 己 视频 处 理 


























1.6.1 ITU-R BT. 601 建议 





1982 年 2 月 , 在 CCIR (Consultative Committee on International Radio, 
会 ) 第 15 次 全 会 上 ， 在 通过 的 CCIR 601 建议 中 ， 
室 彩 色 电 视 信 号 数字 编码 的 国 











际 标准 。 












































电视 制式 ， 








国际 无 线 电 咨询 委员 
确定 了 以 分 量 数字 编码 4 : 2 : 2 标准 作为 演播 
该 建议 考虑 到 现行 的 多 种 彩色 
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界 范 围 兼容 的 数字 编码 方式 ， 是 向 数字 电视 广播 系统 参数 统一 化 、 标 准 化 迈 出 的 第 一 步 。 
建议 对 彩色 电视 信号 的 编码 方式 、 采 样 频 率 、 采 样 结构 都 做 了 明确 的 规定 ， 见 表 1-2。 
表 1-2 CCIR 601 建议 的 主要 参数 (采样 格式 为 4 :2 : 2) 
参 数 625 行 /50 场 525 行 /60 场 
有 效 扫描 行 数 576 480 
编码 信和 号 入 Cp, CR 
亮度 信号 864 858 
每 行 样 点 数 
色差 信号 432 429 
亮度 信号 720 
每 行 有 效 样 点 数 
色差 信号 360 
正 交 ， 按 行 、 场 、 帧 重复 ， 每 行 中 的 Ch ，Cs 的 样 点 同位 置 ， 并 与 每 
采样 结构 et a , 
行 第 奇数 个 (1，3 …) 亮度 的 样 点 同位 置 
亮度 信号 13.5 
采样 频率 /MHz 
色差 信号 6.75 
编码 方式 对 亮度 信号 和 色差 信号 都 进行 均匀 量化 ， 每 个 样 值 为 8bit 量化 
Ne 共 220 个 量化 级 ， 消 隐 电 平 对 应 于 第 16 量化 级 ， 峰 值 白 电 平 对 应 于 第 
亮度 信号 Ea 
量化 级 235 量化 级 
色差 信号 共 224 个 量化 级 (16 ~240 ) ， 色 差 信 号 的 零 电 平 对 应 于 第 128 量化 级 
同步 第 0 级 和 第 255 级 保留 
以 亮度 信号 的 采样 频率 13. 5MHz 除 以 行 频 ， 可 得 出 625 行 /50 场 和 525 行 /60 场 这 两 种 扫描 


的 采样 点 数 分 另 











制式 中 每 行 的 亮度 采样 点 数 分 别 是 864 和 858， 规 定 其 行 正 程 的 采 术 











数字 上 














半 ， 即 6. 75MHz， 
分 量 数字 编码 的 标准 是 . 














FE 点 数 均 为 720， 则 其 行 逆 程 











亮度 信号 的 采样 频率 是 13. 5MHz， 








处 理 的 质量 要 求 更 高 的 设备 ， 也 可 以 采用 4 : 4 : 4 的 采样 格式 。 


彩色 电视 信号 采用 分 量 数字 编码 方式 ， 对 亮度 信和 号 














样 值 取 8bit 量化 。 同 时 ， 规 定 在 数字 编码 时 ， 不 使 用 A -DD 转换 的 整个 动态 
配 220 个 量化 级 ， 黑 电 平 对 应 于 量化 级 16， 白 电 平 对 应 于 量化 级 235; 





Y[^ 
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上 为 144 和 138。 由 于 人 眼 对 色差 信号 的 敏感 度 要 低 于 对 亮度 信号 的 敏感 度 ， 为 了 
降低 数字 电视 信号 的 总 数码 率 ， 所 以 ， 在 分 量 数字 编码 时 可 对 两 个 色差 信号 进 
考虑 到 采样 的 样 点 结构 满足 正 交 结 
信和 号 采样 频率 的 一 
电视 设备 进 和 

样 频率 是 6. 75MHz， 其 采样 


划 行 亚 采 样 ， 同 时 也 


吉 构 的 要 求 ，CCIR 601 建议 两 个 色差 信号 的 采样 频率 均 为 亮度 
每 行 的 样 点 数 也 是 亮度 信号 样 点 数 的 一 


因此 ， 对 演播 室 
两 个 色差 信号 的 采 


频率 之 比 为 4 : 2 :2， 因 此 也 称 为 4: 2 : 2 格式 。 对 用 于 信和 号 源 信 和 号 


和 两 个 色差 信号 进行 线性 PCM 编码 ， 











范围 ， 只 只 给 亮度 度 信号 
为 每 个 色差 信号 分 配 224 、 


量化 级 ， 色 差 信 号 的 零 电 平 对 应 于 量化 级 128。 这 几 个 参数 对 PAL 制 和 NTSC 制 都 是 相同 的 。 


需要 指出 的 是 ，CCIR 601 建议 经 过 多 次 修正 、 扩 








展 ， 现 已 发 展 到 包含 16 : 


9 宽 高 比 在 内 的 


请 与 视 未 理 点 讶 CO) 


ITU-R BT. 601-5 标准 。 新 的 分 量 数字 编码 标准 规定 可 选用 10bit 的 量化 精度 ， 以 适应 某 些 特殊 应 用 。 
在 采用 10bit 量化 编码 格式 时 ， 无 论 是 亮度 采样 值 还 是 色差 采样 值 ， 均 不 允许 使 用 000,, 至 003,, 之 间 
(十 进 制 为 0(、1、2 、3) 及 3FC 至 3FF, 之 间 (十 进 制 为 1020、1021、1022、1023) 的 量化 级 ， 这 些 
量化 级 被 保留 。 这 样 做 的 目的 是 便于 与 8bit 量化 编码 格式 兼容 ， 因 为 取消 这 些 量 化 级 后 ， 在 用 二 进 
制 表示 的 10bit 有 效 样 值 的 量化 级 中 ， 去 掉 末 尾 〈( 即 最 低 有 效 位 ) 的 2 个 “0”， 就 是 相同 电 平 下 的 
8bit 有 效 样 值 的 量化 级 。 例 如 ， 对 于 700my 的 亮度 信号 ， 在 10bit 量化 编码 格式 中 的 量化 级 为 
1110101100 ， 去 掉 末尾 的 2 个 “0”， 就 是 在 8bit 量化 编码 格式 中 的 量化 级 11101011。 


1.6.2 ITU-R BT.709 建议 


20 世纪 70 年 代 中 期 , 日 本 开始 研究 高 清晰 度 电视 显示 技术 。70 年 代 末 ， 欧 洲 广 播 联 盟 
(European Broadcasting Union ，EBU) 代表 团 远 赴 日 本 广播 协会 (NHK) 研究 实验 室 ， 参 观 高 清 
晰 度 电视 ( High Definition Television, HDTV) 演示 ， 这 次 演示 给 大 家 留 下 了 深刻 的 印象 。 就 在 那 
时 ， 美 国电 影 电视 工程 师 协会 (Society of Motion Picture & Television Engineers ，SMPTE ) 成 立 了 
一 个 委员 会 来 研究 HDTV 及 其 应 用 ， 该 委员 会 的 结论 是 HDTV 将 在 影院 中 占有 一 席 之 地 。 受 其 影 
响 ，HDTV 并 未 在 欧洲 的 广播 行业 开花 结果 。 

1981 年 2 月 ，SMPTE 在 旧金山 召开 冬季 会 议 ， 其 间 NHK 展示 了 其 1125/60i 模拟 系统 。 同 
时 ，EBU 技术 委员 会 受 邀 来 到 旧金山 ， 参 加 有 关 4 : 2 : 2 格式 的 讨论 ， 并 借 机 参观 了 NHK 的 高 
清 演示 。 不 久 ，EBU V1/HDTYV 小 组 决定 成 立 一 个 专家 组 来 研究 HDTV 。 

1982 年 6 月 ，NHK 受 邀 来 到 爱尔兰 ， 向 参加 EBU 全 体会 议 的 人 员 做 了 HDTV 演示 。 其 间 播 
放 了 有 关 自 然 与 体育 的 画面 ， 以 及 反映 日 本 文化 的 纪录 片 ，V1/HDTYV 小 组 也 目睹 了 这 一 盛况 。 
这 是 HDTV 在 欧洲 的 首次 亮相 ， 演 示 非 常 成功 。 不 久 V1AHDTV 小 组 意识 到 ， 必 须 与 其 他 组 织 达 
成 一 个 全 球 一 致 的 HDTV 图 像 格式 。 由 于 NHK 的 HDTV 系统 是 基于 1080/60i 格式 的 ， 而 欧洲 一 
直 使 用 50Hz 场 频 系 统 ， 因 此 场 频 的 转换 问题 阻碍 了 该 系统 在 欧洲 的 使 用 。 与 此 同时 ， 美 国 高 级 
电视 制式 委员 会 (Advanced Television System Committee，ATSC) 着 手 制 定 地 面 高 清 广播 标准 ， 由 
于 80Hz 场 频 图 像 更 容易 转换 到 50Hz 或 60Hz 场 频 图 像 ， 因 此 ，ATSC 建议 全 球 统一 使 用 80Hz 场 
0 面 对 80Hz 场 频 所 需 的 带宽 资源 与 并 不 突出 的 效果 ，SMPTE 最 终 未 采纳 

一 提案 。 在 一 位 英国 广播 公司 (British Broadcasting Corporation，BBC) 工程 师 的 提议 下 ，NHK 
ns 

至 此 , 在 HDTV 制作 格式 的 问题 上 ，EBU 内 部 产生 了 分 歧 。 以 意大利 、 瑞 士 等 为 代表 的 一 
方 坚持 采纳 1125/60i 格式 ， 而 法 、 德 、 英 等 国 代表 则 认为 应 坚持 50Hz 场 频 ， 而 且 转 换 器 成 本 高 
昂 ， 对 图 像 质 量 也 有 影响 。 后 来 ， NHK 又 开发 了 一 种 能 将 1125/60i 格式 HDTV 信和 号 带宽 压缩 为 
8 ~9MHz， 并 通过 一 个 卫星 频道 传输 的 MUSE (Multiple Sub-Nyquist Sampling Encoding， 多 重 亚 奈 
奎 斯 特 采 样 编码 ) 系统 。MUSE 系统 将 图 像 分 为 4 个 部 分 ， 巧 妙 地 利用 隔行 扫描 原理 ， 对 不 同 部 
分 分 别 加 以 不 同 的 时 空 滤波 器 。20 世纪 80 年 代 ， 日 本 开始 利用 MUSE 系统 进行 高 清 电视 广播 。 

20 世纪 80 年 代 初 ， 际 电信 联盟 ( International Telecommunications Union，ITU) 成 立 了 一 个 
委员 会 ， 专 门 研究 HDTV 并 试图 达成 全 球 统一 标准 。 由 于 该 小 组 依赖 EBU、SMPTE 及 其 他 国家 
政府 的 提案 ， 因 此 该 小 组 的 讨论 反映 了 EBU 与 SMPTE 的 主张 。 在 1985 至 1986 年 召开 的 多 次 
ITU 会 议 上 ， alate te terra ne a 
府 的 名 义 施 压 ， 迫使 欧洲 接受 该 格式 。 欧 洲 代 表 对 此 噬 之 以 鼻 ， 并 坚持 拒绝 接受 该 格式 。 

We et et 
大 障碍 。 离 开 南 斯 拉夫 后 ， 一 些 欧洲 政府 与 企业 的 代表 决心 要 自行 开发 HDTV 图 像 格式 与 广播 格 
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式 。 后 来 ， 这 便 成 为 著名 的 尤 里 卡 -95 (Eureka-95) 计划 中 的 HD- MAC 项 目 。5 年 后 ,一 个 集 
制作 与 模拟 /数字 广播 为 一 体 的 25Hz HDTV 系统 诞生 。 

1990 年 ，ITU 11A 工作 组 重 开 有 关 HDTV 的 会 议 ，1080/50p 与 1080/60p 两 种 逐 行 扫描 系统 
成 为 讨论 的 基础 。 然 而 ， 在 HDTV 是 否 应 包含 隔行 扫描 这 一 问题 上 ， 欧 洲 代 表 再 次 遇 到 了 疑惑 。 
按照 ITU 之 前 的 定义 ，HDTV 必须 提供 比 标准 清晰 度 电 视 (Standard Definition Television，SDTV) 
更 高 的 运动 效果 ， 而 SDTV 的 场 频 已 经 是 50Hz 与 60Hz， 因 此 采用 这 种 场 频 的 HDTV 不 能 提供 比 
SDTV 更 好 的 质量 ， 也 就 不 属于 真正 的 HDTV。 不 过 ， 考 虑 到 在 当时 的 技术 条 件 下 ， 隔 行 系统 较 
为 现实 ，ITU 会 议 最 终 达 成 了 一 致 ， 即 接受 50Hz/60Hz 两 种 场 频 和 帧 频 、 一 种 图 像 格式 (1920 x 
1080) 及 一 种 数据 率 ，NHK 也 随即 提交 了 一 份 ITU-R BT. 709 建议 的 新 草案 。2 年 后 ， 随 着 24/ 
25Hz 格式 的 加 入 ，HDTV 开始 在 电影 行业 胃 露 头角 。 

ITU-R BT. 709 建议 书 中 包含 下 列 HDTV 演播 室 标 准 ， 以 覆盖 宽广 的 应 用 范围 

1) 常规 电视 系统 方面 : 

。 总 行 数 1125，2 : 1 隔行 扫描 ， 场 频 60Hz， 有 效 行 数 1035 。 

。 总 行 数 1250，2 : 1 隔行 扫描 ， 场 频 50Hz， 有 效 行 数 1152。 

2) 像素 平方 通用 图 像 格式 (CIF) 系统 (1920 x1080) 方面 : 

。 总 行 数 1125， 有 效 行 数 1080。 

。 图 像 频率 60、50、30、25 和 24Hz， 包 括 逐 行 、 隔 行 和 帧 分 段 传输 。 

ITU-R BT. 709 建议 书 中 ， 给 出 了 1920 x 1080 HD- CIF 格式 作为 新 装置 的 优选 格式 ， 它 与 其 
他 应 用 场合 的 互 操 作 性 十 分 重要 ， 其 运行 目标 是 实现 一 个 唯一 的 世界 性 标准 。 

ITU-R BT. 709 建议 的 主要 参数 如 表 1-3 所 示 。 


表 1-3 ITU-R BT.709 建议 的 主要 参数 


为 








像 与 视频 处 理 

























































































































































































系 统 
参 数 
60p 30p/30p 帧 分 段 /60i 50p 25p/25p 帧 分 段 /50i | 24p/24p 帧 分 段 
编码 信号 Y, Csp，Cr 或 R, 6G, B 
采样 结构 ER ee 
正 交 ， 逐 行 和 逐 帧 重复 
(Y, R, G, B) 
采样 结构 _ 下 
正 交 ， 逐 行 和 逐 帧 重复 ， 两 者 相互 重合 ， 与 了 样 点 隔 点 重合 
(Ce，CR) 
每 帧 总 扫描 行 数 1125 
每 帧 有 效 扫 描 行 数 1080 
采样 频率 /MHz 148.5 74. 25 148.5 74. 25 74. 25 
(Y, R, G, B) (148. 5/1. 001) (74. 25/1. 001) (74. 25/1. 001) 
采样 频率 / MHz 74.25 37. 125 74. 25 37. 125 37. 125 
(G8..C8) (74. 25/1. 001) (37. 125/1. 001) (37. 125/1. 001) 
每 行 总 样 点 数 
2200 2640 2750 
(Y, R, G, B) 
每 行 总 样 点 数 
1100 1320 1375 
(Cp, Cr) 
每 行 有 效 样 点 数 
1920 
(Y, R, G, B) 
每 行 有 效 样 点 数 
960 
(Cp, Ce) 
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像 : 视频 由 理 山 (©) 
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1.6.3 ITU-R BT. 2020 建议 











国际 电信 联盟 无 线 电 通信 部 门 ( International Telecommunication Union- Radio communication sec- 
tor，ITU-R) 于 2012 年 8 月 23 日 颁布 了 超 高 清 电视 ( Ultra-high definition television，UHDTV) 节 
目 制作 及 交换 用 视频 参数 值 标准 ITU-R BT 2020， 对 超 高 清 电视 的 分 辨 率 、 色 彩 空 间 、 帧 率 、 色 
彩 编码 等 进行 了 规范 。 

ITU-R BT. 2020 标准 规定 ，UHDTYV 的 图 像 显 示 分 辨 紊 为 3840 x2160(4K) 与 7680 x 4320 
(8K) ， 画 面 宽 高 比 为 16 : 9， 像 素 宽 高 比 为 1 : 1 (方形 像素 ) ， 支 持 10bit 和 12bit 的 量化 ， 支 持 
4:4:4、4:2:2 和 4:2:0 三 种 色 度 采样 方式 。 不 得 不 提 的 是 ,在 ITU-R BT. 2020 标准 中 ， 
只 人 允许 逐 行 扫描 方式 ， 而 不 再 采用 隔行 扫描 方式 ， 进 一 步 提 升 了 超 高 清 影像 的 细腻 度 与 流畅 感 ， 
支持 的 帧 频 包 括 120Hz、60Hz、59. 94Hz 、50Hz 、30Hz 、29. 97Hz 、25Hz 、24Hz 、23. 976Hz。 

在 色彩 方面 ，ITU-R BT. 2020 标准 相对 于 ITU-R BT. 709 标准 做 出 了 大 幅度 的 改进 。 首 先是 
在 色彩 的 比特 深度 方面 ， 由 ITU-R BT. 709 标准 的 8bit 提升 至 10bit 或 12bit， 其 中 10bit 针对 的 是 
4K 超 高 清 系 统 ， 量 化 颜色 数 约 10.7 亿 ; 12bit 则 针对 8K 超 高 清 系统 ， 量 化 颜色 数 约 687 亿 。 这 
一 提升 对 于 整个 影像 在 色彩 层次 与 过 渡 方 面 的 增强 起 到 了 关键 的 作用 。 

1) 对 于 10bit 深度 的 系统 ，ITU-R BT. 2020 标准 定义 整个 视频 信号 的 量化 级 范围 在 4 ~ 1019 ， 
其 中 黑 电 平 对 应 于 量化 级 64， 标 称 峰值 对 应 于 量化 级 940， 有 效 视 频 信和 号 的 量化 级 范围 在 64 ~ 
940， 量 化 级 4 ~ 63 表示 低 于 黑 电 平 的 视频 数据 ， 量 化 级 941 ~ 1019 表示 高 于 标 称 峰 值 的 视频 数 
据 ， 而 量化 级 0 ~3，1020 ~ 1023 用 于 定时 参考 信号 。 

2) 对 于 12bit 深度 的 系统 ，ITU- R BT. 2020 标准 定义 整个 视频 信和 号 的 量化 级 范围 在 16 ~ 
4079， 其 中 黑 电 平 对 应 于 量化 级 256 ， 标 称 峰 值 对 应 于 量化 级 3760， 有 效 视频 信号 的 量化 级 范 
在 256 ~3760， 量 化 级 16 ~ 255 表示 低 于 黑 电 平 的 视频 数据 ， 量 化 级 3761 ~ 4079 表示 高 于 标 称 峰 
值 的 视频 数据 ;而 量化 级 0 ~ 15 ，4080 ~ 4095 用 于 定时 参考 信号 。 

除了 色彩 比特 深度 的 提升 之 外 ，ITU-R BT. 2020 标准 定义 的 色 域 三 角形 的 范围 远 远 大 于 ITU- 
R BT. 709 标准 规定 的 范围 ， 也 就 意味 着 超 高 清 系统 能 够 显示 更 多 的 色彩 。 对 于 一 个 信号 的 亮度 ， 
是 由 0.2627R+0.6780G +0.0593B 组 成 。 然 而， 对 于 白 点 的 定义 还 是 维持 在 TTU- R BT. 709 的 
D65 标准 。 此 外 ， 在 伽 马 校正 方面 ，ITU-R BT. 2020 标准 指出 可 以 利用 非 线 性 曲线 来 进行 伽 马 校 
正 。 对 于 10bit 深度 的 系统 ， 采 用 与 ITU-R BT. 709 标准 一 样 的 校正 曲线 ， 而 对 于 12bit 深度 的 系 
统 ， 则 在 人 眼 敏 感 的 低 光 部 分 曲线 进行 了 相应 的 更 改 。 

ITU-R BT. 2020 标准 定义 的 RGB 色彩 空间 参数 如 表 1-4 所 示 。 

表 1-4 ITU-R BT. 2020 标准 定义 的 RGB 色彩 空间 参数 


三 基色 















































































































































YW YW NR YR %e Ye XB YB 


0. 3127 0. 3290 0. 708 0. 292 0. 170 0. 797 0. 131 0. 046 





























需要 指出 的 是 ，ITU- R BT. 2020 标准 经 历 多 个 版 本 的 修订 ， 于 2015 年 10 月 颁布 了 ITU-R 
BT. 2020-3。 


1.6.4 我 国 数字 电视 节目 制作 及 交换 用 视频 参数 

我 国 于 1993 年 颁布 了 《演播 室 数字 电视 编码 参数 规范 》 标 准 GB/T 14857 一 1993 ， 等 同 于 
CCIR 601 建议 ;于 2000 年 颁布 了 《高 清晰 度 电 视 节 目 制作 及 交换 用 视频 参数 值 》 标 准 GYZT 
155 一 2000。 表 1-5 列 出 了 我 国 数字 电视 节目 制作 及 交换 用 部 分 视频 参数 。 
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(©) 数字 图 像 己 神 频 处 理 

















表 1-5 我 国 数字 电视 节目 制作 及 交换 用 部 分 视频 参数 






































参数 SDTV HDTV 
帧 频 标 称 值 /Hz 25 
场 频 标 称 值 /Hz 50 
每 帧 总 扫描 行 数 625 1125 
行 频 标 称 值 /kHz 15. 625 28. 125 
隔行 比 | 
图 像 宽 高 比 〈 幅 型 比 ) 4:3 (16:9) 16:9 











模拟 编码 亮度 信号 (Ey) 


0. 299E4 +0. 587El +0. 114E; 


0. 2126E + 0.7152E +0.0722E; 





模拟 编码 R- 了 色差 信 


号 (Epr) 


0.713( Ek- Ey) =0.5007 -0. 419E; -0.081E; 


0. 6350( Eh — Ey) =0. S000EA — 0. 4542E, — 0. 0459E% 











模拟 编码 B -7 了 色差 信 


号 (Epp) 


0. 564( Es — Ey) = -0.1697 -0.331E, +0.500E% 


0. 5389( Es — Ey) = —0. 1146E% -0. 3854E, +0.5000E% 





R、G、B、Y 的 采样 频 
率 /MHz 





13. 50 


74.25 





模拟 R、G、B、Y 信 号 
标 称 带宽 /MHz 





标 称 值 : 6 
( 按 采 样 定理 可 达到 的 理论 上 限 值 : 6.75) 








标 称 值 : 30 
( 按 采 样 定理 可 达到 的 理论 上 限 值 : 37. 125 ) 








R、G、B、Y 信 号 采样 




























































































74. 0741 13. 4680 
周期 /ns 
ee 固定 、 正 交 ; Cp、Cg 采样 点 彼此 重合 ， 且 与 亮度 信号 采样 点 隔 点 重合 (第 一 个 有 效 色差 样 点 与 第 一 个 有 
采样 结构 (4 : 2 : 2) 
效 亮度 样 
Cp、CR 采样 频率 
6.75 37. 125 
(4:2:2) /MHz 
Cp、CR 采样 周期 /ms 148. 1482 26. 9360 
R、G、B、 了 Y 每 行 总 样 
864 2640 
点 数 
R、G、B、 了 Y 每 行 有 效 
720 1920 
样 点 数 
Cp、CR 每 行 总 样 点 数 432 1320 
Cp、CR 每 行 有 效 样 点 数 360 960 
R、G、B、 了 每 帧 有 效 
本 576 1080 
扫描 行 数 
Cp、CR 每 帧 有 效 扫描 
ew 576 1080 
行 数 (4 :2 :2) 
像素 宽 高 比 1.07 (1.42) 1.00 
量化 和 编码 方式 8 或 10bit 均匀 量化 ， 自 然 二 进 制 编码 
R、G、B、 了 峰值 量化 ， 
16( 黑 )/235( 白 ) 
电 平 (n=8) 














表 1-5 表明 ， 我 国 数字 电视 与 模拟 电视 一 样 ， 仍 基于 隔行 扫描 方式 传送 图 像 信 号 。 其 中 ，SDTV 
的 扫描 参数 与 现行 模拟 电视 一 样 。HDTYV 与 SDTV 信号 的 帧 频 都 是 25Hz。 包 括 场 逆 程 在 内 ，SDTV 
和 HDTV 每 帧 总 行 数 分 别 是 625 行 和 1125 行 。 由 于 HDTV 扫描 行 数 增多 ， 行 频 就 由 SDTV 的 
15. 625kHz 提高 到 HDTV 的 28. 125SkHz。 需 要 说 明 的 是 ， 为 改善 重 现 图 像 的 某 些 效果 ， 数 字 电视 终端 
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像 3 视频 由 i [四 


可 有 多 种 扫描 方式 显示 图 像 ， 但 发 送 端 信号 扫描 方式 和 参数 是 表 中 所 列 规范 值 。 

如 表 1-5 所 示 ，SDTV 和 HDTV 的 视频 参数 有 很 大 差别 。 其 中 ， 最 主要 的 是 图 像 分 辨 力 不 同 ， 
即 每 帧 图 像 的 有 效 扫描 行 数 和 每 一 扫描 行 的 有 效 像素 数 不 同 。 我 国 SDTV 和 HDTV 每 行 有 效 像素 
数 分 别 是 720 和 1920 个 ， 每 帧 有 效 扫描 行 数 分 别 是 S76 和 1080 行 。HDTYV 与 SDTV 相 比 ， 其 每 
帧 有 效 像素 数 约 增 至 5 倍 ， 所 以 图 像 分 辨 力 得 以 显著 提高 。 

为 利于 建立 临场 感 ， 除 屏幕 尺寸 应 足够 大 以 外 ,采用 16 : 9 的 宽 高 比 显 示 更 加 有 利 。 在 我 国 
的 相关 标准 中 已 明确 规定 HDTV 图 像 信 号 采用 16 : 9 的 宽 高 比 ，SDTYV 的 宽 高 比 是 4 : 3 还 是 16 
: 9 没有 明确 规定 。 

表 1-5 中 列 出 了 如 何 将 三 基色 信号 转换 成 一 个 亮度 信号 和 两 个 色差 信号 。 其 中 ，E%、E'、 
为 y 校正 后 的 模拟 编码 基色 信号 ， 由 它们 转换 而 来 的 亮度 信号 和 两 个 色差 信号 分 别 标记 为 E'、 
天 2 和 五 全 。7y 校正 是 为 校正 显示 器 件 ( 屏 ) 发 光 特 性 非 线 性 而 在 发 端 引入 的 预 校 正 。SDTYV 的 公 
式 表 明 ， 其 两 个 色差 信号 的 压缩 系数 与 现行 模拟 电视 不 同 。HDTYV 的 公式 表明 ， 三 基色 信号 对 亮 
度 的 贡献 比例 关系 发 生 了 变化 ， 两 个 色差 信号 的 压缩 系数 不 仅 与 模拟 电视 不 同 ， 而 且 与 SDTV 也 
不 同 。 

表 1-5 中 有 多 项 与 采样 、 量 化 和 编码 有 关 的 参数 ， 本 书 前 面 已 详细 解释 ， 这 里 不 再 重复 。 表 
中 这 些 参数 与 4 : 2 : 2 采样 格式 对 应 。 其 中 ， 每 行 有 效 采 样 数 为 行 正 程 样 点 数 ， 每 帧 有 效 行 数 为 
两 场 场 正 程 扫描 行 数 之 和 ， 二 者 共同 决定 一 帧 图 像 的 像素 点 阵 构成 。 固 定 、 正 交 采 样 结构 指 的 是 
每 帧 图 像 的 样 点 位 置 不 变 ， 而 且 在 行 和 列 两 个 方向 上 分 别 对 齐 。 表 中 的 像素 宽 高 比 由 图 像 宽 高 
比 和 每 幅 图 像 水 平 及 垂直 方向 有 效 像 素数 决定 。 我 国 HDTV 网 像 信号 显示 为 16 : 9 图 像 ， 像 素 宽 
高 比 是 1.00。 我 国 4 : 3 的 SDTV 图 像 信号 显示 为 4 : 3 图 像 ， 像 素 宽 高 比 是 1.07， 尽 管 稍 扁 ， 但 
由 于 收发 两 端 匹 配 ， 图 像 并 不 变形 ; 但 若 以 全 屏 模 式 显 示 为 16 : 9 图 像 ， 像 素 宽 高 比 则 为 1. 42， 
收发 两 端 不 再 匹配 ， 图 像 被 明显 拉 扁 ， 水 平 清晰 度 下 降 。 男 一 方面 ， 常 用 的 计算 机 显示 格式 的 像 
素 均 为 正方 形 ， 例 如 : 800 x 600 、1024 x768、1152 x 864 、1280 x 960 、1600 x 1200 均 符 合 4 : 3 
正方 形 像素 原则 ， 只 有 1280 x 1024 例外 。 正 方形 像素 有 利于 图 形 和 图 像 的 计算 机 处 理 。 这 是 因 
为 计算 机 在 做 图 像 处 理 时 ， 尤 其 是 各 种 特技 处 理 ， 如 画面 旋转 时 ， 正 方形 像素 具有 优越 性 ， 无 须 
几何 失真 校正 。 而 SDTV 像素 不 是 正方 形 ， 将 造成 SDTV 图 像 在 计算 机 上 变形 ， 而 计算 机 不 加 预 
校正 生成 的 图 形 若 在 计算 机 上 形状 正确 ,但 到 电视 屏幕 上 显示 则 产生 畸变。 由 于 数字 电视 与 计 
算 机 结合 得 越 来 越 紧 密 ， 这 对 计算 机 处 理 和 显示 SDTV 图 像 来 说 很 不 方便 。 
此 外 ， 由 于 电影 素材 在 电视 节目 广播 中 应 用 十 分 广泛 ， 在 未 来 的 HDTV 广播 中 ， 人 们 将 能 欣 
赏 到 更 高 画 质 的 电视 节目 。 为 了 能 更 好 地 进行 HDTV 节目 和 电影 素材 格式 的 转换 ， 有 利于 对 电影 
素材 进行 后 期 编辑 ， 便 有 了 24p(1920 x 1080/24/1 : 1) 的 电视 节目 制作 格式 。24p 是 帧 频 为 
24Hz 的 逐 行 扫描 格式 ， 是 用 高 清晰 度数 字 摄 像 机 拍摄 电影 的 格式 。 我 国 的 数字 高 清晰 度 电视 演 
播 室 视 频 参数 标准 中 包括 24p 格式 ， 其 主要 的 参数 如 表 1-6 所 示 。 

表 1-6 24p 格式 参数 


为 







































































































































































































































































































































































参 数 参 数值 
每 帧 总 扫描 行 数 1125 
有 R、C、B8 、7 每 帧 有 效 扫描 行 数 1080 
隔行 比 131 
帧 频 (Hz) 24 
行 频 (Hz) 27000 
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( 续 ) 
参 数 参 数值 

RG.B.Y 2750 
每 行 总 样 点 数 

Ca Ch 1375 

模拟 RR、G、B、 了 Y 信 号 标 称 带宽 /MHz 30 

Ce R G. BY 74.25 
采样 频率 /MHz 

Ca Cs 37. 125 


1.7 


1.7.1 MATLAB 简介 








MATLAB 在 数字 图 像 与 视频 处 理 中 的 应 用 








MATLAB 是 Matrix 和 Laboratory 两 个 词 的 组 合 ， 意 为 矩阵 实验 室 ， 是 由 美国 MathWorks 公司 


发 布 的 主要 面 对 科 学 计算 、 可 视 化 以 及 交互 式 程序 设计 的 高 科技 计算 环境 。 它 将 数值 分 析 、 和 矩阵 














计算 、 科 学 数据 可 视 化 以 及 非 线性 动态 系统 的 建 模 和 仿真 等 诸多 强大 功能 集成 在 一 个 易于 使 用 





的 视窗 环境 中 ， 主 要 应 用 于 工程 计算 、 











金融 建 模 设 计 与 分 析 等 领域 。MATLAB 对 许多 专门 的 领 : 

















控制 系统 设计 、 图 像 处 理 、 信 号 处 理 、 


言 号 检测 、 通 信 、 





成 都 开发 了 功能 强大 的 模块 集 和 工具 箱 。 


工具 箱 是 MATLAB 函数 的 子 程序 库 ， 每 一 个 工具 箱 都 是 为 某 一 类 学 科 专 业 和 应 用 而 定制 的 。 一 
般 来 说， 它们 都 是 由 特定 领域 的 专家 开发 的 ， 用 户 可 以 直接 使 用 工具 箱 学 习 、 应 用 和 评估 不 同 的 





方法 而 不 需要 自 
MATLAB 的 编程 环境 日 





己 编写 代码 。 
日 一 系列 工具 组 成 。 这 些 工 具 方 便 用 户 使 用 MATLAB 的 函数 和 文件 ， 














和 调试 器 、 路 径 搜索 和 














其 中 许多 工具 采用 的 是 图 形 用 户 界 面 。 包 括 MATLAB 桌面 和 命令 窗 





用 于 月 


以 及 软件 本 身 的 不 断 升 级 ，MATLAB 的 用 户 界面 也 越 来 越 精致 ， 更 力 


人 机 交互 性 更 强 ， 操 作 更 简单 。 而 且 新 版 本 的 MATLAB 提供 了 完整 的 联机 查询 、 


大 : 

















以 直接 运行 ， 而 且 能 够 及 时 地 报告 出 现 的 错误 及 进行 出 错 原因 分 析 。 
MATLAB 的 基本 数据 单位 是 矩阵 ， 它 的 指令 表达 式 与 数学 、 工 程 中 常用 的 形式 十 分 相似 ， 故 用 
MATLAB 来 解 算 问题 要 比 用 C/C++ 、FORTRAN 等 语言 完成 相同 的 事情 简捷 得 多 ， 并 且 MATLAB 也 

















吸收 了 像 Maple 





口 、 历 史 命令 窗口 、 编 辑 器 


昌 户 浏览 帮助 、 工 作 空 间 、 文 件 的 浏览 器 。 随 着 MATLAB 的 商业 化 





上 接近 Windows 的 标准 界面 ， 

















等 软件 的 优点 ， 使 MATLAB 成 为 一 个 强大 的 数学 软件 。 
了 对 C 或 C++、JAVA 的 支持 ， 可 以 利用 MATLAB 编译 器 和 C/C++ 数学 





帮助 系统 ， 极 


岂 方 便 了 用 户 的 使 用 。 简 单 的 编程 环境 提供 了 比较 完备 的 调试 系统 ， 程 序 不 必 经 过 编译 就 可 


新 版 本 的 MATLAB 加 入 
库 和 图 形 库 ， 将 自己 的 





MATLAB 程序 自动 转换 为 独立 于 MATLAB 运行 的 C 和 C++ 代码 。 其 强大 的 科学 运算 能 力 、 灵 活 








的 程序 设计 流程 、 高 质量 的 图 形 可 视 化 与 界面 设计 、 便 损 




















MATLAB 在 图 像 处 理 方面 得 到 了 广泛 的 应 用 。MATLAB 图 像 处 理工 
理 和 分 析 、 可 视 化 的 工具 。 用 户 可 以 利用 MATLAB 
原 、 增 强 处 理 ， 提 取 图 像 的 形状 和 纹理 等 特征 ， 以 及 对 两 幅 











EE 的 与 其 他 编程 语言 接口 的 功能 ， 使 得 























用 开放 的 MATLAB 语言 纪 


写 ， 使 得 用 户 可 以 检查 算法 、 修 改 源 代码 和 创建 自 


1.7.2 MATLAB 中 图 像 与 视频 文件 的 基本 操作 


1. 图像 文件 的 读 取 


具 箱 提供 了 一 整套 用 于 图 像 处 
图 像 处 理工 具 箱 对 含 噪声 或 退化 的 图 像 进 行 复 
图 像 进行 匹配 。 工 具 箱 中 的 大 多 数 函 数 














己 的 自 定义 函数 。 





在 利用 MATLAB 进行 数字 图 像 处 理 时 ， 需 要 读 取 图 像 的 数据 。MATLAB 通过 函数 imread 完成 
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= 视频 处 理 : 而 (©) 











为 








像 : 
































图 像 的 读 取 ， 该 函数 的 语法 格式 如 下 。 


于 所 有 图 像 处 理工 具 所 文 持 的 图 像 文件 格式 。 如 果 图 像 为 灰 度 
图 像 是 彩色 图 像 ， 数 组 A 的 大 小 为 MxNx3。 
[X，map] = imread(filename，fmt) 用 于 读 取 由 fename 指定 的 察 引 图 像 数 据 到 数组 X 中 ， 将 
图 像 颜色 表 读 取 到 map 中 ， 调 色 板 的 取 值 归 一 化 为 [0，1] 。 
[ =imread( URL, …) 用 于 读 取 Internet 上 超 链 接 的 


果 


该 


取 





http : /so 


A = imread (filename, fmt) 

[X， map] = imread(filename，fmt) 
[…] =imread(filename) 

[…] =imread(URL，…) 


“…]= 
] = 
[…] = 
[…] =imread(…，'frames'，idx)(GIF only) 
] = imread(…，ref)(HDF only) 

] = 





说 明 如 下 。 
A =imread (filename, fmt) 用 于 读 取 由 filename 





























,0 ， 此 时 读 取 GIF 文件 所 有 的 图 从 上 








ref 的 葡 认 人 为 1 。 








imread(…， i (CUR, GIF,ICO, and TIFF only) 


[二 imread(…，'"BackgroundColor' ，BC)(PNG only) 
[A, map，alpha] = imread(…)(ICO,CUR，and PNG only) 








[…] =imread(…, idx) 用 于 读 取 从 一 个 包含 多 幅 图 像 的 CUR、GIF、 
中 读 取 第 idx 幅 图 像 ， 如 果 不 指定 idx 的 值 ， 则 默认 为 读 取 文件 中 的 第 一 幅 图 像 。 
[…] =imread(…，'frames', idx) 用 于 读 取 GIF 文件 中 第 idx 帧 图 像 ， 这 里 的 idx 值 可 以 








= imread(…，'"BackgroundColor'，BG) 用 相对 BG 指定 的 颜色 与 输 
像素 过 进行 复合 ， 如 果 BG 为 'none' ， 则 不 进行 任何 复合 ， 


§ 定 的 图 像 数 据 到 数组 A 中 ， 参 数 fmt 对 应 
图 像 ， 数 组 A 的 大 小 为 MxN， 如 


图 像 ，URL 必须 包含 协议 的 类 型 ， 如 


ICO， 或 从 TIFF 文件 


=imread(…，ref) 用 于 读 取 包 含 多 帧 图 像 的 HDF 格式 的 图 像 文件 中 的 第 ref 帧 图 像 ， 


i 入 图 像 中 的 任何 透明 


如 果 输 入 图 像 为 索引 图 像 ， 则 BG 的 取 


值 范围 为 [1，P] ， P 是 颜色 表 的 长 度 ; 如 果 输 入 图 像 为 灰 度 图 像 ，BG 的 取 值 范围 为 [0，1 ] ; 


如 


不 


























果 输 入 图 像 为 RGB 图 像 ，BG 是 一 个 三 维 向 量 ， 取 值 范 围 为 [0, 11]。 
[ A, map, alpha] = imread(…) 返回 输入 图 像 格 式 为 IO0、CUR， 或 在 PNG 的 图 像 中 存在 al- 


pha 通道 ， 则 返回 alpha 通道 的 值 ， 否 则 返回 alpha 为 []。 


起 














2. 图 像 的 显示 


在 MATLAB 中 ， 常 用 到 两 个 显示 图 像 的 函数 i image 和 imshow。 





(1) image 函数 

image 函数 的 语法 格式 如 下 。 
image(C ) 
image(x, y, C) 


image(x, y, C, 'PropertyName', ，PropertyValue ，… 


image( 'PropertyName', PropertyValue, …) 
handle = image(…) 


说 明 如 下 。 


) 


image(C) 将 矩阵 C 作为 一 个 图 像 显 示 ，C 中 的 每 一 个 元 素 都 被 指定 一 种 颜色 。 
image(x, y, C) 的 x，y 分 别 表 示 显 示 图 像 的 左上 角 坐 标 。 











image(x, y, C, 'PropertyName', PropertyValue, 
图 像 之 前 会 调用 newplot 函数 。 








…) 用 于 指定 显示 特 怕 


E 的 名 称 和 取 值 ， 在 绘 
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为 
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l= 


image( 'PropertyName ' ，PropertyValue，…) 用 于 指定 显示 特性 的 名 称 和 取 值 。 
Handle = image(…) 用 于 返回 创建 的 图 像 句 柄 。 
(2) imshow 函数 
当 用 户 调用 imshow 天 数 来 显示 一 幅 数字 图 像 时 ， 该 函数 将 自动 设置 图 像 窗 口 、 坐 标 轴 和 图 
像 属 性 。 该 函数 的 语法 格式 如 下 。 
imshow(I, n) 
imshow(I, [low high | ) 
imshow( BW) 
imshow( X, map) 
imshow( RGB) 


imshow filename 


h = imshow(…) 

说 明 如 下 。 

imshow(I, n) 利用 n 个 灰 度 等 级 来 显示 一 幅 灰 度 图 像 I。 当 忽略 ma 时， 对 于 24 位 的 显示 系 
统 ,，n 的 默认 值 为 256; 对 于 其 他 显示 系统 ，n 的 默认 值 为 64。 

imshow (I, [low high ] ) 显示 灰 度 图 像 1 并 指定 I 的 数据 范围 。I 的 数据 中 小 于 或 等 于 low 的 
数值 被 显示 为 黑色 ， 大 于 或 等 于 high 的 数值 被 显示 为 白色 。 属 于 区 域 [low high] 的 数值 按照 灰 
度 进行 显示 。 如 果 用 户 在 使 用 该 显示 方法 时 用 空 矩 阵 “[ ]” 代 蔡 [low high] ，imshow 哨 数 自动 
设置 为 [min(I(:)) max(1(:))]。 也 就 是 说 , I 中 的 最 小 值 显示 为 黑色 ， 最 大 值 显示 为 白色 。 

imshow(BW) 用 于 显示 二 进 制图 像 BW，BW 中 数值 为 0 的 像素 显示 为 黑色 ， 数 位 为 1 的 像 
素 显 示 为 白色 。 

imshow(X, map) 用 于 显示 颜色 映射 表 为 map 的 图 像 X。 

imshow( RGB) 用 于 显示 真 彩 色 图 像 RGB。 

imshow filename 用 于 显示 存储 在 图 形 文件 中 文件 名 为 人 lename 的 图 像 文件 。 

3. 视频 文件 的 读 取 

在 利用 MATLAB 进行 数字 视频 处 理 时 ， 需 要 读 取 视频 文件 的 数据 。MATLAB 通过 VideoRead- 
er 类 的 函数 完成 视频 读 取 的 功能 。 下 面具 体 介 绍 VideoReader 类 的 函数 。 

(1) VideoReader 函数 

VideoReader 函数 用 于 读 取 视 频 文件 对 象 ， 调 用 格式 如 下 。 


obj = VideoReader(filename ) 


























































































































obj = VideoReader(filename ,Name,Value) 
其 中 ，obj 为 结构 体 ， 包 括 如 下 成 员 : 
Name - 视频 文件 名 。 
Path - 视频 文件 路 径 。 
Duration - 视频 的 总 时 长 (s)。 
FrameRate - 视频 帧 速 ( 帧 /s) 。 
NumberOfFrames - 视频 的 总 帧 数 。 
Height - 视频 帧 的 高 度 。 
Width - 视频 帧 的 宽度 。 
BitsPerPixel - 视频 帧 每 个 像素 的 数据 长 度 (bit) 。 
VideoFormat - 视频 的 类 型 ， 如 'RGB24'。 
Tag - 视频 对 象 的 标识 符 ， 默 认为 空 字 符 串 ' ' 。 
Type - 视频 对 象 的 类 名 ， 默 认为 'VideoReader ' 。 
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UserData - 默认 为 [ ] 。 
(2) get 了 水 数 
get 函数 用 于 获取 视频 对 象 的 参数 ， 参 数 的 名 字 为 上 述 obj 对 象 的 所 有 成 员 ， 其 函数 调用 格 
式 如 下 。 
Value = get(obj,Name) 
Values = get(obj,|Namel，…,NameN | ) 
allValues = get(obj) 
get( obj) 
例如 : 
xylo0bj = VideoReader( 'xylophone. mpg ' ) ; 
xyloSize = get(xyloObj, | 'Height', 'Width', 'NumberOfFrames'|) 
(3) set 函数 
与 get 函数 对 应 ，set 函数 用 于 设置 视频 对 象 的 参数 ， 调 用 格式 如 下 。 
set( obj ,Name, Value) 
set( obj ,cellOfNames ,cellOfValues ) 
set( obj ,structOfProperties ) 








settableProperties = set(obj) 


例如 : 
newValues. Tag = 'My Tag'; 
newValues. UserData = |'My User Data', pi, [1234]1; 


xyloOb] = VideoReader( 'xylophone. mpg' ) ; 
set( xyloOb]j, newValues) 


(4) getFileFormats 函数 
getFileFormats 轴 数 用 于 获取 在 该 系统 平台 下 VideoReader 可 以 支持 读 取 的 视频 类 型 ， 调 用 格 
式 如 下 。 





formats = VideoReader getFileFormats( ) 
(5) isPlatformSupported 函数 
isPlatformSupported 函数 用 于 检测 在 当前 系统 平台 下 VideoReader 是 否 可 用 ， 调 用 格式 如 下 。 
supported = VideoReader. isPlatformSupported( ) 
(6) read 函数 
read 函数 用 于 读 取 视 频 帧 ， 调 用 格式 如 下 。 
video = read(obj) ,获取 该 视频 对 象 的 所 有 帧 
video = read(obj,index) ,获取 该 视频 对 象 的 指定 帧 

















例如 : 
video = read(obj, 1); % 获取 第 一 帧 
video = read(obj, [1 10]); % 获取 前 10 帧 
video = read(obj, Inf); % 获取 最 后 一 帧 





video = read(obj, [50 Inf]); 。”% 获 取 第 50 帧 之 后 的 帧 
4. 写 入 /合成 视频 
与 VideoReader 类 相似 ，MATLAB 提供 了 一 个 可 以 写 入 视频 、 利 用 图 像 序列 合成 视频 的 Vide- 
oWriter 类 。 下 面具 体 介绍 VideoWriter 类 的 函数 。 
(1) VideoWriter 函数 
VideoWriter 函数 用 于 创建 视频 写 入 对 象 ， 调 用 格式 如 下 。 
writerObj = VideoWriter( filename) ,创建 一 个 视频 写 入 对 象 。 当 flename 没有 扩展 名 时 ,默认 为 .avi 
文件 。 
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writerObj = VideoWriter (filename，profile) ， 创 建 一 个 由 profile 指定 类 型 的 视频 写 人 对 象 。 
profile 的 可 能 值 及 其 对 应 的 视频 对 象 类 型 为 : 
' Archival' - Motion JPEG 2000 file with lossless compression , 即 . mj2 文件 。 
' Motion JPEG AVI' - Compressed AVI file using Motion JPEG codec, 即 . avi 文件 。 
' Motion JPEG 2000' - Compressed Motion JPEG 2000 file, 即 . mj2 文件 。 
'MPEG-4' - Compressed MPEG-4 file with H. 264 encoding ( Windows 7 systems only) , 即 . mp4 或 
. m4v 文件 。 
'Uncompressed AVI' - Uncompressed AVI file with RGB24 video , 即 . avi 文件 。 
缺 省 下 默认 为 'Motion JPEG AVI' , 即 .avi 文件。 
(2) open 荫 数 
open 函数 用 于 打开 视频 写 人 人 对象， 在 写 人 视频 对 象 前 使 用 ,调用 格式 如 下 。 
open( writerObj ) 
(3) close 函数 
与 open 函数 对 应 ，close 函数 用 于 关闭 视频 写 入 对 象 ， 在 写 入 视频 对 象 完成 后 使 用 ， 调 用 格 
式 如 下 。 
close( writerObj ) 
(4) getProfiles 函数 
getProfiles 函数 用 于 获取 在 该 系统 平台 下 VideoWriiter 可 以 支持 写 和 人 的 视频 类 型 ， 调 用 格式 
如 下 。 

















profiles = VideoWriter. getProfiles( ) 

(5) writeVideo 函数 

writeVideo 图 数 用 于 写 人 视频 帧 ， 调 用 格式 如 下 。 
writeVideo( writerObj ,frame) ,将 一 帧 图 像 fame 写 人 视频 对 象 中 
writeVideo( writerObj ,mov) ,将 MATLAB 的 movie 对 象 写 人 视频 中 
writeVideo( writerObj ,img) ,将 一 个 图 像 写 人 视频 对 象 中 
writeVideo( writerObj ,images ) ,将 一 序列 图 像 写 入 视频 对 象 中 


1.7.3 MATLAB 编程 实例 





【 例 1-1】 请 编写 MATLAB 程序 ， 打 开 一 幅 RGB 类 型 的 彩色 图 像 ， 分 别 显示 RR、G、B 分 量 
解 : MATLAB 代码 如 下 。 

clear all 

RGB = imread( 'peppers. png' ) ; % 读 入 图 像 文件 

R = RCB(:，,:，,1); 

G = RGB(:,:,2); 

B = RGB(:,:,3); 

subplot(2,2,1); % 创建 子 医 

imshow(RGB ) ; 





O 








title( "原始 图 像 ' ) ; 和 图 形 标题 
subplot(2,2 ,2 ) ; % 创建 子 图 


imshow( R); 
title( 'R 分 量 图 像 ' )，; % 图 形 标题 
subplot(2,2,3); % 创建 子 医 
imshow( G); 
title( 'G 分 量 图 像 ');  % 图形 标 题 
subplot(2,2,4); % 创建 子 图 
imshow(B) ; 
title( 'B 分 量 图 像 ' ) ; % 图 形 标题 
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【 例 1-2】 请 编写 一 段 读 取 视 频 、 显 示 帧 ， 并 保存 每 一 帧 的 MATLAB 代码 。 
解 : MATLAB 代码 如 下 。 


fleName = 'MVI 1264_clip. avi'; 
obj = VideoReader(fileName ) ; 








numFrames = obj. NumberOfFrames; % 帧 的 总 数 

for k = 1 : numFrames; % 读 取 数据 
frame = read(obj,k); 
imshow( frame ) ; % 显示 帧 
imwrite( frame ,strcat( num2str(k),'. jpg' ), 'jpg' ); 和 保存 帧 

end 


【 例 1-3】 请 编写 一 段 利用 图 像 序列 合 成 视频 的 MATLAB 代码 。 
解 : MATLAB 代码 如 下 。 


myObj = VideoWriter( 'newfile. avi' ) ; % 初 始 化 一 个 avi 文件 
writerObj. FrameRate = 30; 

open( myObj ) ; 

for i=1:200; % 图 像 序列 个 数 





fname = strcat( '.. \imgdata\' ,num2str(i), '. jpg' ); 
frame = imread( fname); 
writeVideo( myObj ,frame ) ; 

end 


close( myObj ) ; 


1.8 小 结 





本 章 首先 介绍 了 光 的 特性 与 度量 的 基本 知识 ,包括 光 通 量 、 发 光 强 度 、 上 照度、 亮度 等 主要 光 
度 学 参量 。 接 着 介绍 了 彩色 三 要 素 、 三 基色 原理 及 混 色 方法 、 几 种 典型 的 颜色 空 间 模 型 (如 
RGB、CMY/CMYK、YUV、YIQ、YC,C,、HSIAHSV)。 然 后 ,介绍 了 有 关 人 了 眼 视觉 特性 的 知识 ， 
包括 人 眼 的 光谱 响应 特性 、 亮 度 感觉 特性 以 及 人 有 眼 的 分 辨 力 与 视觉 惰性 。 接 着 ,介绍 了 图 像 信号 
的 数字 化 过 程 ，NTSC、PAL 和 SECAM 三 种 兼容 制 彩色 电视 制式 ,ITU- R BT.601、ITU-R 
BT. 709 、ITU-R BT. 2020 建议 和 我 国 数字 电视 节目 制作 及 交换 用 视频 参数 。 最 后 ， 介 绍 了 MAT- 
LAB 中 图 像 与 视频 文件 的 基本 操作 ， 列 举 了 一 些 MATLAB 编程 实例 。 
















































































1.9 ”习题 


. 说 明 彩 色 三 要 素 的 物理 含义 。 
. 请 阐述 三 基色 原理 及 其 在 彩色 电视 系统 中 的 应 用 。 
. 简 述 RGB 颜色 空间 模型 、HSI 颜色 空间 模型 是 如 何 对 颜色 进行 描述 的 。 
. 与 NTSC 制 相 比 较 ，PAL 制 有 哪些 特点 ? 
. ITU-R BT. 601 建议 有 哪些 主要 内 容 ? 有 何 实际 意义 ? 
. ITU-R BT. 656 建议 与 ITU-R BT. 601 建议 之 间 存 在 什么 关系 ? ITU-R BT. 1120 建议 与 ITU- 
R BT. 709 建议 之 间 存 在 什么 关系 ? 
7. 请 编写 RGB 颜色 空间 和 HSI 颜色 空间 相互 转换 的 MATLAB 程序 。 
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本 章 学 习 目 标 : 

e 掌握 数字 图 像 增强 的 基本 方法 和 技术 。 

。 掌握 数字 图 像 灰 度 的 线性 与 非 线性 变换 的 方法 及 应 用 。 

。 熟悉 直方 图 均衡 化 、 直 方 图 规定 化 的 步骤 。 

e 掌握 图 像 平 滑 的 基本 方法 ， 如 令 域 平均 法 、 中 值 滤波 法 、 低 通 滤波 。 

。 了 解 基 于 非 局 部 相似 性 的 图 像 去 噪 、 基 于 稀疏 表示 的 图 像 去 品 算 法 。 

e 掌 握 图 像 锐 化 的 基本 方法 ， 如 梯度 运算 、 索 贝尔 (Sobel) 算 子 、 拉 普 拉 斯 算 子 、 
滤波 。 

e 了 解 图 像 的 同 态 滤波 、 基 于 Retinex 理论 的 图 像 增 强 方法 。 

。 了解 伪 彩 色 增 强 、 假 彩色 增强 的 基本 方法 。 





i 
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2.1 引言 


在 图 像 的 形成 、 存 储 、 传 输 等 过 程 中 ， 由 于 多 种 因素 的 影响 ,会 导致 图 像 质量 的 下 降 。 改 善 
降 质 图 像 〈 退 化 图 像 ) 的 方法 一 般 分 为 两 类 : 图像 增强 (Image Enhancement) 和 图 像 复原 (Im- 
age Restoration) 。 图 像 增强 方 法 不 考虑 图 像 降 质 的 原因 ， 并 不 要 求 改 善后 的 图 像 去 通 近 原始 图 
像 ， 而 是 根据 一 定 的 要 求 将 图 像 中 感 兴趣 的 部 分 加 以 处 理 或 突出 有 用 的 图 像 特征 〈 如 边缘 、 轮 
廓 、 对 比 度 等 ) ， 抑 制 不 需要 的 信息 ， 以 改善 图 像 的 主观 视觉 效果 或 便于 后 续 的 图 像 分 析 和 识 
别 。 图 像 复原 ， 也 称 图 像 恢复 ， 其 目的 是 针对 图 像 降 质 的 具体 原因 ， 设 法 使 改善 后 的 图 像 尽 可 能 
地 逼近 原始 图 像 ， 恢 复 被 退化 图 像 的 本 来 面目 。 

图 像 复原 与 图 像 增 强 的 主要 区 别 如 下 。 

1) 图 像 恢复 试图 利用 降 质 过 程 的 先 验 知识 ， 建 立 图 像 的 退化 模型 ， 采 用 与 退化 相反 的 过 
来 复原 图 像 ， 而 图 像 增强 一 般 无 须 对 图 像 降 质 过 程 建立 模型 。 

2) 图 像 复 原 是 针对 图 像 整 体 ， 以 改善 图 像 的 整体 质量 ， 而 图 像 增强 是 针对 图 像 的 局 部 ， 以 
改善 图 像 中 感 兴趣 部 分 的 局 部 特性 。 

3) 图 像 恢复 是 对 未 退化 的 原 图 像 的 估计， 其 算法 的 性 能 必须 要 有 一 个 客观 的 评价 准则 ; 
而 图 像 增强 主要 是 学 试用 各 种 技术 来 改善 图 像 的 主观 视觉 效果 ， 和 恨 少 涉及 统一 的 客观 评价 
准则 。 

由 于 篇 幅 的 限制 ， 本 章 只 介绍 图 像 增 强 方面 的 基础 知识 ， 有 关 图 像 恢复 方面 的 内 容 请 参阅 
其 他 文献 。 

图 像 增强 算法 按 其 运算 处 理 所 进行 的 作用 域 不 同 ， 可 分 为 空间 域 法 和 频率 域 法 两 大 类 。 

(1) 空间 域 法 

空间 域 法 是 在 空间 域内 直接 对 图 像 的 像素 值 进 行 运 算 操 作 。 空 间 域 法 又 分 为 点 运算 处 理 法 
和 邻 域 运算 处 理 法 。 

。 点 运算 处 理 法 : 是 指 直 接 对 图 像 的 各 像素 点 逐一 进行 灰 度 变 换 的 处 理 方法 。 例 如 ， 图 像 的 

灰 度 变换 、 直 方 图 修正 等 都 采用 点 运算 处 理 法 。 
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邻 域 运算 处 理 法 : 是 对 图 像 像素 的 某 一 邻 域 进行 处 理 的 方法 。 例 如 ， 图 像 平滑 、 图 像 锐 化 
入 部 采用 名城 运算 处 理 法 。 常 用 的 方法 包括 邻 城 平 
均 法 、 中 值 滤波 法 、 梯 度 运算 、 拉 普 拉 斯 算 子 等。 a 人 
(2) 频率 域 法 2 | 直方 图 修正 






























































频率 域 法 是 先 通过 正 交 变换 将 图 像 从 空间 域 变 oo 
换 到 频率 域 ， 然 后 在 频率 域 中 对 变换 系数 值 进行 运 局 三 
算 操 作 ， 增 强 感 兴趣 的 频率 分 量 ， 然 后 再 进行 反 变 人 


换 到 空间 域 ， 得 到 增强 后 的 图 像 。 频 率 域 法 利用 了 ”图像 增强 4 
图 像 在 频率 域 的 某 些 性 质 ， 而 这 些 性 质 在 空间 域 很 ee 
难 甚至 无 法 获取 ， 因 此 可 以 实现 许多 在 空间 域 中 无 同 杰 洲 波 





we 高 通 滤波 (图 像 锐 化 ) 
































法 完成 或 是 很 难 实现 的 处 理 。 常 用 的 方法 包括 低 通 Ca 
滤波 、 高 通 滤波 以 及 同 态 滤波 等 。 Pe 





2.2 图 像 的 灰 度 变换 








在 曝光 不 足 或 曝光 过 度 的 情况 下 ， 图 像 的 灰 度 值 会 局 限 在 一 个 较 小 的 范围 内 ,或 虽然 曝光 
充分 ,但 图 像 中 感 兴趣 部 分 的 灰 度 值 分 布 范 围 小 、 层 次 少 ， 图 像 的 视觉 效果 差 。 对 此 ， 可 采用 图 
像 的 灰 度 变换 方法 ， 即 改变 图 像 的 像素 灰 度 值 ， 以 扩展 图 像 的 灰 度 值 动态 范围 ， 或 增强 图 像 的 对 
比 度 ， 从 而 使 图 像 变 得 层次 丰富 或 使 图 像 特征 变 得 明显 。 


2.2.1 灰 度 的 线性 变换 


假定 原 图 像 f (x,，y) 的 灰 度 范围 为 [a, 6]， 希望 sc 
变换 后 图 像 s(x，y) 的 灰 度 范围 扩展 至 [c，d] ， 则 线 
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性 的 变换 关系 如 图 2-2 所 示 ， 其 数学 表达 式 为 
g(x,7) =9 ce[(esy) al +e (21) 。 
在 灰 度 的 线性 变换 中 ， 有 一 种 比较 特殊 的 情形 ， 就 是 -- ] i 


图 像 的 反 转 变换 ， 简 单 地 说 就 是 将 黑 的 像素 变 成 白 的 像 
素 ， 将 白 的 像素 变 成 黑 的 像素 。 普 通 黑白 照片 和 底片 就 是 图 2-2 灰 度 的 线性 变换 关系 
这 种 关系 。 图 像 的 反 转 变换 如 图 2-3 所 示 。 

为 了 突出 感 兴趣 的 目标 或 灰 度 区 间 ， 相 对 抑制 那些 不 感 兴趣 的 灰 度 区 间 ， 可 采用 分 段 线 性 
变换 。 

若 原 图 像 / (x，y) 的 灰 度 范围 为 [0，M,] ， 其 中 大 部 分 像素 的 灰 度 值 分 布 在 [a, 5b] 区 
间 ， 极 小 部 分 像素 的 灰 度 值 超出 了 此 区 间 ， 为 了 改善 增强 的 效果 ， 可 以 用 式 (2-2) 的 变换 关系 : 












































上 0<Axy) <a 
g(417) = 1 EL,y) -a] +e, asflx,y) < (222) 
d, b<f(x,y) <M;, 
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为 








l= 








像 己 视频 处 理 











常用 的 三 段 线性 变换 关系 如 图 2-4 所 示 ， 其 数学 表达 式 为 


8g(%,y) = 











eA 0</(%,y) <a 
Efx,y) -al +e, af,y) < C2.3) 


a b] +d, b= M 
Mo) ]+d, bs/(x,y) <M, 





g(xX,)) 
Mg 
d 
机 
a) 原始 图 像 b) 反 转 变换 后 的 图 像 0 a b M ftsy) 
图 2-3 图 像 的 反 转 变换 图 2-4 分 段 线性 变换 关系 





式 (2-3) 对 灰 度 区 间 [0, a] 和 [5，Mj] 加 以 压缩 ， 对 灰 度 区 间 [a, 5b] 进行 扩展 。 通 





过 细心 调整 折线 拐点 的 位 置 及 探 外 








出 分 段 直线 的 斜率 ， 可 对 任 一 灰 度 区 间 进 行 扩 展 或 压缩 。 这 种 





变换 适用 于 在 黑色 或 白色 附近 有 噪声 干扰 的 情况 。 
下 面 介绍 灰 度 分 段 线性 变换 3 种 常见 应 用 。 


1. 对 比 度 扩展 





对 比 度 扩 展 (Contrast Stretching) 是 分 段 线性 变换 中 最 常见 的 一 种 应 用 。 假 设 有 一 幅 图 像 ， 由 
于 成 像 时 光照 不 足 ， 使 得 整 幅 图 像 偏 暗 (例如 灰 度 范围 为 0 ~ 100) ， 或 者 成 像 时 光照 过 强 ， 使 得 整 





幅 图 像 偏 之 (例如 灰 度 范围 为 150 








~255) ， 称 这 些 情况 为 低 对 比 度 ， 即 灰 度 层次 不 丰富 。 对 比 度 扩 

















展 的 目的 就 是 把 感 兴趣 的 灰 度 范围 拉 开 ， 使 得 该 范围 内 的 像素 ， 亮 的 变 得 更 亮 ， 暗 的 变 得 更 暗 。 实 
际 中 ， 对 比 度 扩 展 往 往 是 通过 增加 原 图 像 中 某 两 个 灰 度 值 间 的 动态 范围 来 实现 的 。 对 比 度 扩展 的 典 




















型 变换 曲线 与 图 2-4 中 的 曲线 类 似 
[5，M,] 区 间 的 动态 范围 缩小 了 ， 














。 可 以 看 出 ， 通 过 这 样 一 个 变换 ， 原 图 像 中 灰 度 值 在 [0, a] 和 
而 原 图 像 中 灰 度 值 在 [a, 5] 区 间 的 动态 范围 增加 了 ， 从 而 增 








强 了 [a,6] 灰 度 区 间 内 的 对 比 度 。 





2. 削 波 

图 像 灰 度 的 削 波 (Cliping) 
处 理 可 以 看 作 是 对 比 度 扩展 的 
一 个 特例 。 如 果 令 式 (2-3) 中 
的 c=0,，d = MM,， 则 变换 后 的 
图 像 抑制 了 [0, a] 和 [2， 
M,] 两 个 灰 度 区 间 内 的 像素 , 
扩展 了 [a,b5] 灰 度 区 间 像 素 
的 动态 范围 。 当 取 w = 150 、2 = 
200、c =0、d = M, = 255 时 ， 
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图 2-5 示例 了 一 由 经 分 段 线性 变换 进行 对 比 度 扩展 后 的 图 像 效果 。 


























a) 原始 图 像 b) 对 比 度 扩展 后 的 图 像 
图 2-5 网 像 的 对 比 度 扩展 








©) 

















对 图 2-6a 进行 前 波 处 理 后 的 
效果 如 图 2-6b 所 示 ， 把 亮 的 
区 域 (雕塑 ) 提取 了 出 来 。 
3. 阅 值 化 
阅 值 化 ( Thresholding ) 
可 以 看 作 是 削 波 的 一 个 特例 。 
如 果 令 式 (2-3) 中 的 a=6b, ce 


















































=0,，d = M,， 则 变换 后 的 图 a 原始 图 像 b) 削 波 后 的 图 像 
像 只 剩 下 两 个 灰 度 级 。 经 过 图 2-6 图 像 灰 度 的 前 波 处 理 
阔 值 化 处 理 后 ， 灰 度 值 比 阔 


值 大 的 像素 变 成 了 白 像素 ， 
灰 度 值 比 阔 值 小 的 像素 变 成 
了 黑人 像素， 灰 度 图 像 变 成 了 
黑白 二 值 图 像 。 

当 取 a=6b=128、c=0、 
d=M,=255 时 ， 对 图 2-7a 
进行 闽 值 化 处 理 后 的 效果 如 


图 2-7b 所 示 ， 得 到 一 幅 黑 白 
二 值 图 像 。 图 2-7 图 像 的 阔 值 化 处 理 











a) 原始 图 像 b) 阀 值 化 后 的 图 像 








2.2.2 灰 度 的 非 线性 变换 


当 用 某 些 非 线 性 函数 ， 如 对 数 丽 数 、 指 数 丽 数 等 ， 作 为 网 像 的 映射 晒 数 时 ， 可 实现 图 像 灰 度 
的 非 线 性 变换 。 

灰 度 的 动态 范围 压缩 是 非 线性 变换 的 一 个 例子 ， 它 与 对 比 度 扩展 的 目标 相反 。 有 时 原 网 像 
的 动态 范围 太 大 ， 超 出 某 些 显 示 设 备 的 允许 动态 范围 。 若 直接 使 用 原 图 像 ， 则 一 部 分 细节 可 能 
失 ， 解决 的 办 法 是 压缩 原 图 像 灰 度 的 动态 范围 。 
1. 对 数 变 换 
对 数 变换 的 一 般 表 达 式 为 
































gy) =a+ AE) + (2-4) 





式 中 的 参数 a、5、c 是 为 了 修改 曲线 的 起 始 位 置 和 形状 以 增加 变换 的 动态 范围 和 灵活 性 而 引入 
的 。 为 避免 对 0 求 对 数 ， 将 对 Ax，y) 取 对 数 改 为 对 f(x,，y) +1 取 对 数 。 对 数 扩展 的 变换 曲线 
如 图 2-8 所 示 。 

对 数 变 换 的 作用 是 扩展 图 像 的 低 灰 度 范围 ， 同 时 压缩 高 灰 度 范围 ， 使 得 图 像 灰 度 分 布 均匀 ， 
与 人 的 视觉 特性 相 匹 配 。 对 数 变 换 的 一 个 典型 应 用 就 是 傅 里 叶 频 谱 ， 由 于 其 频谱 值 的 范围 很 大 ， 
图 像 显 示 系 统 往往 不 能 如 实 呈 现 出 如 此 大 范围 的 强度 值 ， 从 而 造成 很 多 细节 在 显示 时 丢失 。 这 
时 采用 对 数 变换 ， 可 得 到 清晰 的 频谱 。 

如 图 2-9a 所 示 的 原始 图 像 经 对 数 变换 后 ， 其 结果 如 图 2-9b 所 示 。 

2. 指数 变换 

此 数 变换 的 一 般 表达 式 为 
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(©) 数字 图 像 与 视频 处 理 





























g(x,y) = 一 1 (2-5) 


指数 变换 的 作用 与 对 数 变 换 相反 ， 它 用 于 压缩 输入 图 像 中 低 灰 度 区 间 的 对 比 度 ， 而 使 图 像 
的 高 灰 度 范围 得 到 扩展 。 























0 fs) a) 原始 图 像 
图 2-8 对 数 扩展 的 变换 曲线 图 2-9 ”图像 灰 度 的 对 数 变换 























2.2.3 直方 图 修正 


在 对 图 像 进行 处 理 之 前 ， 了 解 图 像 整 体 或 局 部 的 灰 度 分 布 情况 非常 必要 。 对 图 像 的 灰 度 分 
布 进行 分 析 的 重要 手段 就 是 建立 图 像 的 灰 度 直方 图 (Histogram) 。 它 能 描述 该 图 像 的 概貌 ， 例 如 
图 像 的 灰 度 范围 、 每 个 灰 度 级 出 现 的 频率 分 布 、 整 幅 图 像 的 平均 亮度 和 对 比 度 等 ， 为 图 像 的 进 一 
步 处 理 提供 了 重要 依据 。 大 多 数 自然 图 像 由 于 其 灰 度 分 布 集中 在 较 罕 的 区 间 ， 使 得 图 像 细 节 不 
够 清晰 。 采 用 直方 图 修正 后 可 使 图 像 的 灰 度 间距 拉 开 或 使 灰 度 分 布 均匀 ， 从 而 增 大 对 比 度 ， 使 网 
像 细 闻 清 上 晰 ， 达 到 增强 的 目的 。 直 方 图 修正 法 通常 有 直方 图 均衡 化 及 直方 图 规定 化 两 类 。 

1. 直方 图 的 基本 概念 

如 果 将 图 像 中 像素 亮度 〈 灰 度 级 ) 看 成 是 一 个 随机 变量 ， 则 其 分 布 情况 就 反映 了 图 像 的 统 


计 特 性 ， 这 可 用 灰 度 直 
灰 度 级 | 1 | 2 | 3 | 4 1 5 |46 
四 四 四 四 






















































































方 图 来 刻画 和 描述 。 灰 
度 直方 图 是 灰 度 级 的 函 
数 ， 它 表示 图 像 中 具有 
某 种 灰 度 级 的 像素 的 个 
数 ， 反 映 了 图 像 中 每 种 
灰 度 级 出 现 的 频数 ， 如 
图 2-10 所 示 。 灰 度 直 方 
图 的 横 坐 标 是 灰 度 级 r， 
纵 坐 标 是 该 灰 度 级 出 现 
的 频数 p,(r) ， 它 是 图 像 最 基本 的 统计 特征 。 

2. 灰 度 直方 图 的 定义 

灰 度 直方 图 定义 为 数字 图 像 中 各 灰 度 级 7 与 其 出 现 的 概率 p,(r,) 间 的 统计 关系 ， 可 表示 为 


n 


六 (A (0 Ll) (2-6) 













































































图 2-10 图像 的 灰 度 直方 图 





























L-l1 


Pp) 三 入 (2-7) 
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式 中 ， 必 为 图 像 中 出 现 灰 度 级 为 六 的 像素 数 ; n 为 图 像 的 像素 总 数 ; 工 为 灰 度 级 总 数 ; n/n 即 为 
灰 度 级 r+, 出 现 的 概率 。 在 直角 坐标 系 中 做 出 7 与 p,(r) 的 关系 图 形 ， 即 称 为 该 图 像 的 直方 图 。 

3. 灰 度 直方 图 的 性 质 

由 灰 度 直方 图 的 定义 可 知 ， 数 字 图 像 的 灰 度 直方 图 具有 如 下 3 个 性 质 。 

(1) 图 像 空间 位 置信 息 的 缺失 性 

直方 图 是 一 幅 图 像 中 各 像素 灰 度 值 出 现 次 数 (或 频数 ) 的 统计 结果 ， 它 只 反映 该 图 像 中 不 
同 灰 度 值 出 现 的 次 数 〈 或 频数 ) ， 而 未 反映 某 一 灰 度 值 像素 所 在 位 置 。 也 就 是 说 ， 它 只 包含 了 该 
图 像 中 某 一 灰 度 值 的 像素 出 现 的 概率 ， 而 丢失 了 其 所 在 位 置 的 信息 。 

(2) 图 像 与 直方 图 之 间 的 多 对 一 映射 关系 

任 一 幅 图 像 都 唯一 地 确定 与 它 对 应 的 一 个 直方 图 ， 但 由 于 直方 图 的 位 置信 息 缺 失 性 ， 对 于 
不 同 的 多 幅 图 像 ， 只 要 其 灰 度 级 出 现 频数 的 分 布 相 同 ， 则 都 具有 相同 的 直方 图 。 也 就 是 说 ， 图 像 
与 直方 图 之 间 是 多 对 一 的 映射 关系 。 如 图 2-11 就 是 一 个 不 同 图 像 具 有 相同 直方 图 的 例子 。 


| 本 中 | 


图 2-11 图 像 与 直方 图 间 的 多 对 一 关系 

































































































































































(3) 直方 图 的 可 稚 加 性 

由 于 灰 度 直方 图 是 各 灰 度 级 出 现 频数 的 统计 值 ， 若 将 某 一 图 像 分 成 几 个 子 图 ， 则 该 图 像 的 
直方 图 就 等 于 各 子 图 直方 图 的 又 加 。 

4. 直方 图 均衡 化 
如 果 获 得 的 一 幅 图 像 的 直方 图 效果 不 理想 ， 可 以 通过 直方 图 均衡 化 处 理 技术 做 适当 修正 ， 
使 图 像 变 得 更 加 清晰 。 直 方 图 均衡 化 的 基本 思想 是 通过 对 原始 图 像 中 的 像素 灰 度 做 某 种 映射 变 
换 ， 使 变换 后 的 图 像 灰 度 直方 图 是 均匀 分 布 的 直方 图 ， 即 变换 后 图 像 是 一 幅 灰 度 级 均匀 分 布 的 
图 像 ， 这 意味 着 增加 了 像素 灰 度 值 的 动态 范围 ， 从 而 达到 增强 图 像 对 比 度 的 效果 。 例 如 ， 一 幅 对 
比 度 较 小 的 图 像 ， 其 直方 图 分 布 一 定 集中 在 某 一 比较 小 的 范围 之 内 ， 经 过 均衡 化 处 理 后 ， 就 可 增 
加 图 像 的 动态 范围 和 对 比 度 。 

下 面 先 讨论 连续 图 像 的 均衡 化 问题 ， 然 后 推广 到 数字 图 像 的 直方 图 均衡 化 。 

对 于 连续 图 像 ， 设 7 代表 图 像 中 像素 灰 度 值 ， 做 归 一 化 处 理 后 , r 将 被 限定 在 [0, 1] 之 内 。 
对 于 一 幅 给 定 的 图 像 来 说 ， 每 一 个 像素 取得 [0, 1] 区 间 内 的 灰 度 值 是 随机 的 ， 也 就 是 说 + 是 一 
个 随机 变量 。 假 定 对 每 一 时 刻 ， 它 们 是 连续 的 随机 变量 ， 那 么 就 可 以 用 概率 密度 函数 p,(r) 来 表 
示 原 始 图 像 的 灰 度 分 布 。 如 果 用 直角 坐标 系 的 横 轴 代表 灰 度 值 >， 用 纵 轴 代 表 灰 度 值 的 概率 密度 
函数 p,(r)， 则 针对 
一 幅 图 像 我 们 可 以 得 
到 灰 度 分 布 概率 密度 
函数 曲线 ， 如 图 2-12 
所 示 。 

从 图 像 灰 度 分 6 1 6 和 
布 概率 密度 函数 遇 a) b) 
线 可 以 看 出 一 幅 图 图 2-12 ”图像 灰 度 分 布 概率 密度 函数 
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像 的 灰 度 分 布 特性 。 例 如 ， 图 2-12a 所 对 应 图 像 的 大 多 数 像素 灰 度 值 都 较 小 ， 所 以 这 幅 图 
像 较 暗 ; 图 2-12b 所 对 应 图 像 的 大 多 数 像素 灰 度 值 都 较 大 ， 所 以 这 幅 图 像 较 亮 。 

为 了 讨论 方便 ， 用 + 和 分别 表示 原始 图 像 的 归 一 化 灰 度 值 和 经 变换 后 图 像 的 归 一 化 灰 度 
值 ， 即 : 0<r=1 ，0 到 5s 乏 1。 

对 [0，1] 区 间 内 的 任 一 个 * 值 进行 如 下 变换 ， 

sS= 了 (7) (2-8) 

也 就 是 说 ， 通 过 上 述 变 换 ， 每 个 原始 图 像 的 像素 灰 度 值 > 都 对 应 产生 一 个 * 值 。 变 换 函 数 7(7) 
应 满足 下 列 条 件 : 

在 0<r<1 区 间 内 ，7(r) 为 单调 递增 函数 。 

0 有 0<7T(r) <1。 

条 件 中 保证 了 图 像 的 灰 度 级 从 白 到 黑 的 次 序 不 变 ， 
Pe ae tl ie 
满足 这 两 个 条 件 的 变换 函数 的 例子 如 图 2-13 所 示 。 

从 :到 7 的 反 变 换 可 用 式 (2-9) 表示 为 


r=7- (s) (2-9) $x 
由 概率 论 可 知 ， 如 果 已 知 随机 变量 7 的 概率 密度 函数 为 
p,(r) ， 而 随机 变量 s 是 7 的 函数 ， 即 s = T(r)， 则 ;s 的 概率 密 


度 函 数 p,(s) 可 由 p,(r) 求 出 。 “ 
因为 s=7T(r) 是 单调 递增 的 ， 由 数学 分 析 可 知 ， 它 的 反 图 2-13 灰 度 变换 函数 

函数 ">=7 (s*) 也 是 单调 函数 ， 变 换 后 的 图 像 灰 度 级 的 概率 

密度 函数 p(s) 为 






























































ps) = pl7) LTS)] = [pn +e] (2-10) 
r=Ts) 
对 于 连续 图 像 ， 当 均衡 化 并 归 一 化 后 ,满足 p,(s) =1， Pe 10) 得 
ds =p,(r)dr=d7T(r) (2-11) 


式 (2-11) 两 边 取 积分 得 
s = T(r) = | pW (2-12) 
式 (2-12) 就 是 所 求 的 变换 函数 ， 它 表明 当 变 换 函 数 T(r) 是 原 图 像 的 累积 分 布 函 数 时 ， 可 
产生 一 ee ee 即 达到 均衡 化 的 目的 。 
【 例 2-1】 给 定 一 幅 图 像 的 灰 度 级 概率 密度 函数 为 


-2r+2, 0<r<1l 
p,(7) 甘 

求 变换 函数 7(r)， 使 变换 后 图 像 的 灰 灰 度 级 概率 密度 函 数 是 均匀 分 布 的 。 

解 : 由 式 (2-12) 得 

§ = T(7) 三 | (x)dx = | -2 +2)dx =-r +2r 

图 2-14a、 图 2-14b 和 图 2-14c 分 别 为 原始 图 像 的 灰 度 级 概率 密度 函数 、 变 换 函 数 和 变换 后 图 像 的 
灰 度 级 概率 密度 函数 。 

上 述 方法 是 以 连续 随机 变量 为 基础 进行 讨论 的 。 由 于 数字 图 像 的 灰 度 级 是 离散 值 ,所 以 可 以 
用 灰 度 级 7 的 频数 近似 蔡 代 概 率 值 。 这 样 , 一 幅 图 像 中 第 外 个 灰 度 级 7 出 现 的 概率 为 


pn) = (k=0,1,2,,L-1) (2-13) 
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Pr 站 s=7(7) p,(s) 
2 1.0 1.0 
0.8 0.8 

] 0.6 0.6 

0.4 0.4 

0.2 0.2 

0 1 2 rr 0 0.20.40.60.81.0 7 0 0.20.40.60.81.0 7 
a) b) 9) 


图 2-14 ”将 非 均 匀 概 率 密度 函数 变换 成 均匀 概率 密度 函数 
由 此 可 得 对 应 于 式 (2-12) 的 离散 灰 度 变换 函数 ， 即 直方 图 均衡 化 公式 为 





,= T(r,) = Bo ) = > (0 0<r<1l;k =0,1,.…,L-1) (2-14) 
这 样 ， 由 式 (2-14) 就 把 原 输 入 图 像 中 灰 度 级 为 7 的 各 像素 映射 到 直方 图 均衡 化 图 像 (输出 
图 像 ) 中 灰 度 级 为 ,的 对 应 像素 。 
式 (2-14) 的 反 变 换 函 数 为 














rm =7-() (0<s,<1) (2-15) 
直方 图 均衡 化 的 实现 步骤 如 下 : 

@ 计算 原 图 像 的 归 一 化 灰 度 级 及 其 分 布 概率 p,(7,) = 二 (k=0,1,2,…,L-1)。 

@ 根据 式 (2-14) 求 变换 函数 的 各 灰 度 级 值 ;, 。 

@) 将 所 得 的 变换 函数 的 各 灰 度 级 值 转化 成 标准 的 灰 度 级 值 ， 也 就 是 把 步骤 @ 求 得 的 各 值 ， 
按 靠近 原则 近似 到 与 原 图 像 灰 度 级 相同 的 标准 灰 度 级 中 。 此 时 获得 的 就 是 均衡 化 后 的 新 图 像 中 
存在 的 灰 度 级 值 ， 其 对 应 的 像素 个 数 不 为 零 ; 对 于 那些 在 变换 过 程 中 “被 丢失 了 的 ” 灰 度 级 ， 
将 其 像素 个 数 设 为 零 。 

@ 求 新 图 像 的 各 灰 度 级 (1=0,1,2,…,L -1) 的 像素 数目 。 在 前 一 步 的 计算 结果 中 ， 如 
果 不 存 在 灰 度 级 ， 则 该 灰 度 级 的 像素 数 昌 为 有 ; 如 果 存 在 灰 度 级 ;; ， 则 根据 其 与 之 相关 的 s, = 
T(r,) 和 s, 的 对 应 关系 ， 确 定 该 灰 度 级 s! 的 像素 数目 。 


@ 用 s, 代替 s/ (1=0,1,2,…,L-1)， 并 求 新 图 像 中 各 灰 度 级 的 分 布 概率 p.(s,) = 一。 


GO 画 出 经 均衡 化 后 的 新 图 像 的 直方 图 。 
【 例 2-2】 假 定 有 一 幅 图 像 ， 共 有 64 x 64 个 像素 ， 灰 度 级 为 8 ， 各 灰 度 级 的 概率 分 布 列 于 
表 2-1 中 ， 试 对 其 进行 直方 图 均衡 化 ， 
表 2-1 一 幅 64 x64 图 像 中 灰 度 级 的 概率 分 布 










































































灰 度 级 六 0 1/7 Oy 3/7 4/7 5/7 6/7 1 
像素 数 nn 790 1023 850 656 329 245 122 81 
概率 疡 (ri ) 0. 19 0. 25 0.21 0. 16 0. 08 0. 06 0.03 0.02 

















解 : 由 式 (2-14) 可 得 到 变换 函数 
5 = TOn) = 之 pn) =p,(n) =019 
S = Tn) = 之 PP) = p(n) +p,(n) = 0.19 +0.25 = 0.44 
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sy = T(mP) = Dp(n) = pn) +p,(n) +p,(r,) = 0.19 +0.25 +0.21 = 0.65 


类 似 地 计算 出 ，s,=0.81，s, =0.89，s, =0.95，s。 =0.98，s, =10。 变 换 函 数 如 图 2-15b 所 示 。 
这 里 只 对 图 像 取 8 个 等 间隔 的 灰 度 级 ， 变 换 后 的 值 也 只 能 选择 最 靠近 的 一 个 灰 度 级 的 值 。 因 
此 ， 对 上 述 计算 值 加 以 修正 ， 即 








Ss 1 S 卫生 S 加 下 8 0 
0 7 ? 和 Wy ? 3 7 
Viet ss1l, so~1, 5 一 1 





由 上 述 数 值 可 知 ， 在 新 图 像 中 ， 有 以 下 结论 。 

。 不 存在 值 为 0 的 灰 度 级 ， 也 即 新 图 像 中 灰 度 级 s; =0 的 像素 个 数 为 mw =0。 

。 存在 值 为 1/7 的 灰 度 级 ， 且 由 =1Z7 和 ww =7T(m) 可 知 ， 新 图 像 中 灰 度 级 为 s' = 177 的 像 
素 对 应 于 原 图 像 中 灰 度 级 为 r, =0 的 像素 ， 其 像素 个 数 m, =m =790。 

。 不 存在 值 为 2/7 的 灰 度 级 ， 也 即 新 图 像 中 对 于 s; =2/7， 其 像素 个 数 m, =0。 

。 存在 值 为 3/7 的 灰 度 级 ， 且 由 =3Z7 和 s, =7T(r,) 可 知 ， 新 图 像 中 灰 度 级 为 s; =3/7 的 像 
素 对 应 于 原 图 像 中 灰 度 级 为 r, =1/7 的 像素 ， 其 像素 个 数 为 mw =n, =1023。 

。 不 存在 值 为 4/7 的 灰 度 级 ， 也 即 新 图 像 中 对 于 s; =4/7， 其 像素 个 数 m, =0。 

。 存在 值 为 5/7 的 灰 度 级 ， 且 由 s, ~~5/7 和 s, =7T(r,) 可 知 ， 新 图 像 中 灰 度 级 为 s; =5/7 的 像 
素 对 应 于 原 图 像 中 灰 度 级 为 r, =2/7 的 像素 ， 其 像素 个 数 为 ms =n, =850。 

。 存在 值 为 6/7 的 灰 度 级 ， 且 由 s,~6/7 和 s,=T(r,)， 以 及 s, 二 6/7 和 s, =7T(r,) 可 知 ， 新 
图 像 中 灰 度 级 为 ss =6/7 的 像素 ， 对 应 于 原 图 像 中 灰 度 级 为 r, =3/7 和 + =4/7 的 像素 ， 其 像素 个 
数 为 ms =n, +m =656 +329 =985。 

。 存在 值 为 7/7 的 灰 度 级 ， 且 由 ss =1 和 ss =7T(m)、w=1 和 ss =7T(r), 以 及 sl1 和 s, = 
T(r;) 可 知 ， 新 图 像 中 灰 度 级 为 % =1 的 像素 ， 对 应 于 原 图 像 中 灰 度 级 为 r; =5/7、rs =6/7 和 六 = 
7/7 的 像素 ， 其 像素 个 数 为 m =m +ns +n, =245 +122 +81 =448。 


























用 s, 代替 si (1=0,1,2,…,L -1)， 并 求 新 图 像 中 各 灰 度 级 的 分 布 概率 p(s,) 2 结果 如 























图 2-15c 所 示 。 








Di Sk DSp 
0.25 1.0 
0.20 0.8 
0.15 0.6 
0.10 0.4 
0.05 0.2 
01234556]1 大 0 工 立 卫生 可 瑟 1 大 
77777 7 7 人 
a) b) 9) 





图 2-15 ”直方 图 均衡 化 处 理 


一 幅 图 像 经 直方 图 均衡 化 的 效果 如 图 2-16 所 示 。 
由 图 2-16 可 见 ， 经 直方 图 均衡 化 处 理 后 得 到 的 新 直方 图 虽然 
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图 2-16 ”直方 图 均衡 化 的 效果 


像 的 直方 图 平坦 得 多 ， 而 且 其 动态 范围 也 大 大 地 扩展 了 。 因 此 ， 这 种 方法 对 于 对 比 度 较 弱 的 网 像 
进行 处 理 是 很 有 效 的 。 














2.2.4 直方 图 规定 化 


直方 图 均衡 化 的 优点 是 能 增强 整 幅 图 像 的 对 比 度 ， 但 它 的 具体 增强 效果 不 易 控制 ， 处 理 的 
结果 总 是 得 到 近似 均匀 分 布 的 直方 图 。 实 际 应 用 中 ， 在 不 同 的 情况 下 ， 并 不 总 是 需要 具有 均匀 直 
方 图 的 图 像 ， 有 时 要 求 突 出 图 像 中 人 们 感 兴趣 的 灰 度 范围 ， 即 希望 找到 灰 度 变换 函数 ， 使 原 图 像 
的 直方 图 变 成 所 要 求 的 特定 形状 ， 从 而 有 选择 地 增强 某 个 灰 度 值 范围 内 的 对 比 度 。 直 方 图 规定 
es 种 直方 图 修正 方法 。 实 际 上 ， 直 方 图 均衡 化 是 直方 图 规定 化 中 

定 直 方 图 为 均匀 分 布 的 一 种 特例 。 

下 面 仍然 从 研究 连续 灰 度 的 概率 密度 函数 入 手 来 讨论 直方 图 规定 化 的 基本 思想 。 

设 p,(r) 是 待 增强 的 原始 图 像 的 灰 度 分 布 概率 密度 函数 ，p.(z) 是 直方 图 规定 化 后 的 新 图 像 
即 希望 得 到 的 图 像 ， 的 灰 度 分 布 概率 密度 函数 。 直 方 图 规定 化 即 是 找 一 种 变换 ， 使 得 原 图 像 经 
变换 后 ， 变 成 了 具有 灰 度 分 布 概率 密度 函数 p.(z) 的 新 图 像 。 如 何 建立 p.(z) 和 p,(r) 之 间 的 联 
系 是 直方 图 规定 化 处 理 的 关键 。 

首先 对 原始 图 像 进行 直方 图 均衡 化 处 理 ， 即 


i pa (2-16) 


假定 已 经 得 到 了 所 希望 的 规定 化 后 的 图 像 ， 其 灰 度 分 布 概率 密度 函数 为 p.(z)， 并 对 其 也 做 
直方 图 均衡 化 处 理 ， 即 
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w= GC(2) 三 | pC) ar (2-17) 
式 (2-17) 的 反 变 换 函 数 为 
z=G (wu) (2-18) 
根据 前 面 关于 连续 图 像 直 方 图 均衡 化 的 讨论 ， 若 对 原始 图 像 和 期 望 图 像 都 进行 一 次 直方 图 
均衡 化 处 理 ， 将 会 得 到 相同 的 归 一 化 均匀 灰 度 分 布 的 概率 密度 函数 ， 即 
p.(s) =p,(u) =1 (2-19) 
也 就 是 说 均匀 分 布 的 随机 变 dd 换 句 话说 ， 从 统计 意义 上 说 ， 
它们 是 完全 相同 的 。 为 此 ， 可 用 s 来 代替 式 (2-18) 中 的 wu, 晴 
z=G '(u)=G.(s) (2-20) 
这 样 ， 得 到 的 灰 度 值 z 便 是 所 希望 的 规定 化 后 的 图 像 的 灰 度 值 。 
根据 以 上 思路 ， 可 以 总 结 出 直方 图 规定 化 处 理 的 步骤 如 下 。 
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Qa 对 原始 图 像 进 行 直方 图 均衡 化 。 

@ 规定 期 望 的 灰 度 分 布 概率 密度 函数 p.(z) ， 并 用 式 (2-17) 求 规定 直方 图 的 均衡 化 变换 函 
数 G(z)。 

@ 将 步骤 中 所 得 到 的 灰 度 s 用 到 反 变 换 函 数 z= G7 (wu)， 即 

z=G  (u)=6G (ss)=G [T(r)] (2-21) 

这 样 ， 就 实现 了 + 与 z 的 映射 关系 。 很 显然 ， 如 果 G7[7T(7r)] =7T(r) 时 , 式 (2-21) 就 简化 
为 直方 图 均衡 化 方法 了 。 
这 种 方法 在 连续 变量 的 情况 下 涉及 求 反 变换 函数 的 解析 式 的 问题 一般 情况 下 较为 困难 。 
但 是 由 于 数字 图 像 的 灰 度 值 是 离散 变量 ， 因 此 ， 可 用 近似 的 方法 绕 过 这 个 问题 ， 从 而 较 简单 地 克 
服 了 这 个 困难 。 下 面 通过 例子 来 说 明 数 字 图 像 的 直方 图 规定 化 处 理 过 程 。 

【 例 2-3】 假 定 有 一 幅 图 像 ， 共 有 64 x 64 个 像素 ， 灰 度 级 数 为 8 ， 灰 度 级 的 概率 分 布 列 于 表 
2-2 中 ， 试 对 其 进行 直方 图 规定 化 ， 规 定 的 灰 度 级 的 概率 分 布 如 表 2-3 所 示 。 


表 2-2 一 幅 64 x64 图 像 中 灰 度 级 的 概率 分 布 


































































































灰 度 级 六 0 177 277 3/7 4/7 5/7 6/7 1 
像素 数 nj 790 1023 850 656 329 245 122 81 
概率 p, (ri) 0. 19 0. 25 0.21 0. 16 0. 08 0. 06 0.03 0.02 























表 2-3 规定 的 灰 度 级 的 概率 分 布 


灰 度 级 zi 0 1/7 277 3/7 4/7 5/7 6/7 1 





概率 p，(z) 0 0 0 0.15 0. 20 0. 30 0. 20 0. 15 





解 : 数字 图 像 的 直方 图 规定 化 处 理 步骤 如 下 。 

@ 按照 例 2-2 中 的 方法 对 原始 图 像 进行 直方 图 均衡 化 。 

@ 规定 期 望 的 直方 图 ( 即 规定 期 望 的 各 灰 度 级 概率 分 布 p.(z,))， 并 求 规定 直方 图 的 均衡 化 
变换 Gl(z,) o 





ey Pp. 


DLL 二 
0 
us = C(z) = Dp.(z,) = p.(z) = 0.00 
j=0 
和 
wu = G2) = Dp.(s) = 记 (z) +p.(z) =0.00+0.00 =0.00 
j=0 
wy = C8) = Dp.(s) =m(a) +p.(2) +p.(2) = 0.00 +0.00 +0.00 = 0.00 
j=0 


us = CG(z) = Zp.(5) = p.(z0) +p.(z1) +p.(z) +p.(z3) = 0.15 
依 此 类 推 求 得 

uw, = G(z,) =0.35 

us = G(zs) =0.65 

us = G(z,) =0. 85 

w=G(z) =1 
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(3) 将 原 直 方 图 对 应 映射 到 规定 的 直方 图 。 这 可 分 为 两 个 过 程 进 行 映射 。 首 先 ， 将 步骤 中 获得 
的 灰 度 级 s, 应 用 于 反 变 换 函 数 z, =C…(s%)， 从 而 获得 za 与 w% 的 映射 关系 比较 函数 z= CCs) 
及 其 变换 反 函 数 s, = G(z,) 可 知 ， 所 谓 建立 z 与 s; 的 映射 关系 ， 就 是 找 出 与 s, 最 接近 的 G(z) 


六 









































值 ， 与 该 G(z) 对 应 的 a 就 和 s, 建立 了 映射 关系 。 例 如 ， = 本 ~0 14， 与 它 最 接近 的 是 G(z,) = 
0.15， 所 以 可 写成 C (0.15) =zs。 用 这 样 的 方法 可 得 到 zz 与 % 的 映射 关系 


1 3 
i 

3 4 
1 
J 
2 7 5 了 
dt 

7 7 


54=1—»=1 
然后 ,根据 z=G (ss,) = G7 [T(r,)]， 进 一 步 获得 7 与 za 的 映射 关系 : 根据 7 与 5; 的 映射 
关系 、s' 与 % 的 映射 关系 以 及 s 与 z 的 映射 关系 ， 建 立 六 与 和 的 映射 关系 


,=0 一 = 方 
Ee 
六 = 了 3 二 了 
2 7 5 7 
2 
3 了 6 ， 了 
4 0 
ee 
r= 坟 一 =1 
mn= 了 一 二 =1 


前 三 二 的 二 
@ 根据 建立 的 7 与 z 的 映射 关系 确定 规定 化 后 图 像 的 各 灰 度 级 的 像 数 数 ， 并 用 n =4096 去 
除 ， 可 得 到 相应 的 概率 分 布 ， 其 数据 如 表 2-4 所 示 。 


表 2-4 规定 化 后 图 像 各 灰 度 级 的 概率 分 布 











灰 度 级 z 0 1/7 2/7 3/7 4/7 5/7 6/7 1 
像素 数 nj 0 0 0 790 1023 850 985 448 
概率 p,(z) 0. 00 0. 00 0. 00 0. 19 0. 25 0. 21 0. 24 0.11 





























图 2-17a 是 原始 图 像 的 直方 图 ， 图 2-17b 是 规定 的 直方 图 ， 图 2-17c 为 变换 函数 ， 图 2-17d 为 规 
定 化 后 的 直方 图 。 
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PH Pp.(zp) 
0.30 0.30 
0.25 0.25 
0.20 0.20 
0.15 0.15 
0.10 0.10 
0.05 0.05 
0 0 
117 37 57 1 Tk 117 37 5/7 1 x 
27 47 6/7 2/7 47 6/7 
a) b) 
7 DP.(zp 
1.00 0.25 
0.80 0.20 
0.60 0.15 
0.40 0.10 
0.20 0.05 
0 一 上 一 二 0 
117 37 57 1 Zk 117 37 5/7 1 Xx 
2/7 4/7 6/7 2/17 4/7 6/7 
c¢) d) 


图 2-17 直方 图 规定 化 





2.3 图 像 平 滑 与 去 噪 


图 像 在 形成 、 传 输 和 接收 的 过 程 中 ， 不 可 避免 地 会 受到 各 种 噪声 的 干扰 和 影响 ， 如 光电 转换 
过 程 中 敏感 元 件 灵敏 度 的 不 均匀 性 、 数 字 化 过 程 的 量化 噪声 、 传 输 过 程 中 的 误差 以 及 人 为 因素 
等 ， 均 会 降低 图 像 质 量 ， 这 为 后 续 的 图 像 处 理 和 分 析 带 来 困难 。 

噪声 反映 在 图 像 中 ,会 使 原本 均匀 和 连续 变化 的 灰 度 值 产生 突变 ， 形 成 一 些 虚 假 的 边缘 或 
轮廓 。 减 弱 、 抑 制 或 消除 这 类 噪声 而 改善 图 像 质量 的 方法 称 为 图 像 平 滑 。 图 像 平 滑 既 可 以 在 空间 
域 进行 ， 也 可 以 在 频率 域 进行 。 空 间 域 常用 的 方法 有 邻 域 平均 法 、 中 值 滤波 和 多 图 像 平均 法 等 ; 
在 频率 域 ， 因 为 噪声 频谱 多 在 高 频段 ， 因 此 可 以 采用 各 种 形式 的 低 通 滤波 方法 进行 平滑 处 理 。 


2.3.1 模板 操作 和 卷 积 运算 


模板 操作 是 数字 图 像 处 理 中 常用 的 一 种 运算 方式 ， 图像 的 平滑 以 及 后 面 将 要 讨论 的 锐 化 、 
边缘 检测 等 都 要 用 到 模板 操作 。 
常用 的 模板 (Template) 有 


0 1 0 1 1 1 1 1 1 1 2 1 
1 1 1 1 
4 中 0 中 和 让 1 jt 4 :| 
0 1 0 1 1 1 1 1 1 1 2 1 


H, Ph 
模板 操作 实现 了 一 种 邻 域 运算 ， 即 某 个 像素 点 的 运算 结果 不 仅 与 本 像素 灰 度 有 关 ， 而 且 与 
其 邻 域 点 的 值 有 关 。 模 板 操作 的 数学 含义 是 卷 积 (或 互相 关 ) 运算 。8- 邻 域 的 卷 积 运算 示意 图 
0 图 2-18 所 示 。 
卷 积 运算 中 的 卷 积 核 ( 卷 积 核 大 小 与 邻 域 相同 ) 就 是 模板 操作 中 的 模板 ， 卷 积 就 是 做 加 权 
求 和 的 过 程 。 邻 域 中 的 每 个 像素 分 别 与 卷 积 核 中 的 每 一 个 元 素 相 乘 ， 乘 积 求 和 所 得 结果 即 为 中 






































站 
































48 | 第 2 章 


©) 




















心 像素 的 新 值 。 卷 积 核 中 的 元 输入 图 像 
素 称 作 加 权 系 数 〈 亦 称 为 卷 积 





























系数 ) ， 卷 积 核 中 的 系数 大 小 加 权 和 计算 : 
及 排列 顺序 ， 决定 了 对 图 像 进 Hi:Pit 
行 区 域 处 理 的 类 型 。 改 变 卷 积 Ho: Pat 
核 中 的 加 权 系 数 ， 会 影响 到 总 人 
和 的 数值 与 符号 ， 从 而 影响 到 ， 
所 求 像素 的 新 值 。 a 
在 模板 或 卷 积 的 加 权 运 算 pn 
中 ， 还 存在 一 些 具体 问题 需要 Has: Pst 
解决 : 首先 是 图 像 边 界 问 题 ， Ho Pot 
当 在 网 像 上 移动 模板 ( 卷 积 Ps 的 新 值 
核 ) 至 图 像 的 边界 时 ， 在原 图 
像 中 找 不 到 与 卷 积 核 中 的 加 权 3X3 邻 域 3X3 卷 积 核 
系数 相对 应 的 9 个 像素 ， 即 卷 图 2-18 ” 卷 积 运算 示意 图 
积 核 悬 挂 在 图 像 缓 冲 区 的 边界 
上 ， 这 种 现象 在 图 像 的 FE、 下 、 左 、 右 四 个 边界 上 均 会 出 现 。 例 如 ， 当 模板 为 
1 1 1 
1 
H=5|1 四 
1 1 1 
原 图 像 为 
11111 
2 2222 
P=|3 3 3 3 3 
4 4444 
5 5 5 55 
经 过 模板 操作 后 的 图 像 为 
2 2 二 
PxH=|- 3 3 3 - (2-22) 
- 4 4 4 - 





式 (2-22) 中 的 “ - ”表示 无 法 进行 模板 操作 的 像素 点 。 

解决 这 个 问题 可 以 采用 两 种 简单 方法 : 一 种 方法 是 忽略 图 像 边界 数据 ， 另 一 种 方法 是 在 图 
像 四 周 复制 原 图 像 边 界 像素 的 值 ， 从 而 使 卷 积 核 悬挂 在 图 像 四 周 时 可 以 进行 正常 的 计算 。 

其 次 ， 计 算出 来 的 像素 值 的 动态 范围 问题 。 简 单 的 处 理 办 法 是 : 当 计 算出 来 的 像素 值 小 于 0 
时 ， 将 其 值 置 为 0; 当 计算 出 来 的 像素 值 大 于 255 时 ， 将 其 值 置 为 255 。 


2. 3.2 ” 邻 域 平均 法 


图 像 中 的 大 部 分 噪声 是 随机 噪声 ， 它 们 对 某 一 像素 的 影响 可 以 看 作 是 孤立 的 。 对 于 某 一 像素 而 
言 ， 如 果 它 与 周围 的 其 他 像素 相 比 ， 其 灰 度 值 有 显著 的 不 同 ， 则 可 以 认为 该 像素 点 含有 噪声 。 
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像 己 视频 处 理 





























邻 域 平均 法 就 是 对 含 噪声 的 原始 图 像 f(x，y) 的 每 个 像素 点 取 一 个 邻 域 Y， 用 N 中 所 包含 
像素 的 灰 度 平均 值 ， 作 为 邻 域 平 均 处 理 后 的 图 像 g(*，y) 的 像素 值 。 即 





gsy) = HDA) (2-23) 


式 中 ,WN 为 不 包括 本 点 (x*，y) 的 邻 域 中 各 像素 点 的 集合 ; 1 为 邻 域 N 中 像素 的 个 数 。 常 用 的 
邻 域 为 4- 邻 域 和 8- 邻 域 N,。 
设 要 处 理 点 坐标 为 (x，y) ， 则 4- 邻 域 平均 计算 公式 为 








gz 人 = 元 也 7 
GEN 


























(2-24) 
= fx -17) +fx,y 1) + fx,y +1) +flx +1,y)] 
若 用 模板 操作 ， 则 4- 邻 域 平 均 法 的 模板 为 
0 1 0 
-让 0 1 (2-25) 
0 1 0 
8- 邻 域 平均 计算 公式 为 
gy) = BD FED) 
= fel DD) tf DD) +fetly 1) +fAr -1 0) 
+f(x+1,y) +f(x—1,y+1) +f(x,y+1) +/(x+1,y+1)|] 
若 用 模板 操作 ， 则 8- 邻 域 平 均 法 的 模板 为 
1 1 1 
已 = 了 | 1 0 1 (227) 
1 1 1 
例如 ， 用 8- 邻 域 平均 法 对 一 幅 数 字 图 
像 进行 平滑 处 理 ， 其 结果 如 图 2-19 所 示 。 | 1 1?|11|4|3 1 2| tI4|3 
图 中 计算 结果 按 四 舍 五 入 进行 了 调整 ，| 1 4 5 
对 边界 像素 不 进行 处 理 。 5 5 医 吕 蜂 吉 攻 二 | 9 


邻 域 平均 法 的 主要 优点 是 算法 简单 ，| 5 
计算 速度 快 ,但 其 代价 是 会 造成 图 像 一 定 | 5 
程度 上 的 模糊 。 例 如 ， 对 图 2-20a 中 的 图 像 
采用 邻 域 平均 法 进行 处 理 后 的 效果 如 图 






































图 2-19 ”8- 邻 域 平均 法 平滑 处 理 示 意图 








2-20b 所 示 。 可 以 看 出 经 过 邻 域 平 均 法 处 理 后 ， 虽 然 图 像 的 噪声 得 到 了 抑制 ， 但 同时 图 像 变 得 比 
处 理 前 模糊 了 ， 特 别 是 图 像 边缘 和 细节 部 分 。 

一 般 来 说 ， 邻 域 平均 法 的 平滑 效果 与 所 采用 邻 域 的 半径 (模板 大 小 ) 有 关 。 所 选 的 邻 域 半 
径 越 大 ,平滑 作用 越 强 ， 但 图 像 也 就 越 模糊 。 因 此 ， 减 少 图 像 的 模糊 是 图 像 平滑 处 理 研究 的 主要 


问题 之 一 。 




















为 了 减轻 这 种 效应 ， 可 以 采用 国 值 法 ， 即 根据 下 列 准则 对 图 像 进行 平滑 : 
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1 网 用 1 . 
sles) = | De Wen) eof >? (2-28) 
re 其 他 


式 中 ,7 是 预先 设 定 的 阐 值 ， 当 菏 
些 像素 点 的 灰 度 值 与 其 邻 域 像素 点 
的 灰 度 平均 值 之 差 不 超 过 阐 值 了 时 ， 
仍 保留 这 些 像素 点 的 灰 度 值 。 当 菜 
些 像素 点 的 灰 度 值 与 其 邻 域 像素 点 。 

灰 度 的 均值 差别 较 大 时 ， 这 些 像素 > 
点 必然 是 噪声 ， 这 时 再 取 其 邻 域 平 量 0 
均值 作为 这 些 点 的 灰 度 值 。 这 样 平 划 邻 域 平均 后 的 效果 

滑 后 的 图 像 比 单纯 地 进行 邻 域 平均 图 2-20 采用 邻 域 平均 法 的 效果 

后 的 图 像 要 清晰 一 些 , 平滑 效果 仍 

然 很 好 。 

在 实际 处 理 过 程 中 ， 选 择 合适 的 闵 值 是 非常 重要 的 。 若 阐 值 选 得 太 大 ， 则 会 减弱 噪声 的 去 除 
效果 ; 若 闻 值 太 小 ， 则 会 增强 图 像 平滑 后 的 模糊 效应 。 选 择 闵 值 需要 根据 图 像 的 特点 作 具 体 分 
析 ， 如 果 事 先知 道 一 些 噪声 的 灰 度 级 范围 等 先 验 知识 ， 将 有 助 于 阔 值 的 选择 。 

为 了 克服 简单 的 邻 域 平均 法 的 丈 病 ， 目 前 已 提出 许多 种 既 保 留 边缘 又 保留 细节 的 邻 域 平滑 
算法 。 它 们 的 区 别 在 于 如 何 选择 邻 域 的 大 小 、 形 状 和 方向 ， 如 何 选择 参与 平均 的 像素 点 数 以 及 邻 
域 各 点 的 权重 系数 等 ， 主 要 算法 有 : 天 近邻 平均 法 、 梯 度 倒 数 加 权 平 滑 、 最 大 均匀 性 平滑 、 小 斜 
面 模型 平滑 等 。 有 关 这 些 方法 请 参阅 相关 参考 文献 。 


2.3.3 中 值 滤波 


中 值 滤波 是 一 种 非 线性 信号 处 理 方法 ， 在 去 噪 的 同时 可 以 兼顾 到 边界 信息 的 保留 。 它 在 一 
定 条 件 下 ， 可 以 克服 线性 滤波 器 (如 邻 域 平滑 滤波 等 ) 在 去 噪 的 同时 所 带 来 的 图 像 细 节 模 糊 问 
题 ， 而 且 对 滤 除 脉冲 干扰 及 图 像 扫 描 噪 声 最 为 有 效 。 由 于 它 在 实际 运算 过 程 中 并 不 需要 知道 图 
像 的 统计 特性 ， 这 也 带 来 不 少 方便 。 但 是 对 一 些 细节 多 ， 特 别 是 点 、 线 、 尖 顶 细节 多 的 图 像 不 宜 
采用 中 值 滤波 。 

由 于 中 值 滤 波 是 一 种 非 线 性 运算 ,对 随机 输入 信号 的 严格 数学 分 析 比 较 复杂 ， 下 面 采用 直 
观 方法 简要 介绍 中 值 滤波 的 原理 。 

1. 中 值 滤波 的 原理 

中 值 滤 波 就 是 选用 一 个 含有 奇数 个 像素 的 滑动 窗口 ， 将 该 窗口 在 图 像 上 扫描 ， 把 其 中 所 含 
的 像素 点 按 灰 度 级 的 升 (或 降 ) 序 排列 ， 取 位 于 中 间 的 灰 度 值 ， 来 代替 窗口 中 心 点 的 灰 度 值 。 
例如 ， 设 窗口 内 有 5 个 像素 点 ， 其 灰 度 值 分 别 为 80、100、200、110 和 120， 如 果 按 从 小 到 大 排 
列 ， 结 果 为 80 、100、110 、120 、200 ， 排 在 中 间 位 置 上 的 值 为 110， 那 么 此 窗口 内 各 点 的 中 值 为 
110。 于 是 原来 窗口 中 心 点 的 灰 度 值 200 就 由 110 代替 。 如 果 200 是 一 个 噪声 的 尖峰 ， 则 将 被 滤 
除 。 然 而 ， 如 果 它 是 一 个 信号 ， 那 么 此 法 处 理 的 结果 将 会 造成 信号 的 损失 。 

设 有 一 个 一 维 序列 f ，f; ，…，f,， 取 窗口 长 度 (点 数 ) 为 m(m 为 奇数 )， 对 该 序列 进行 中 
值 滤波 ， 就 是 从 输入 序列 了 ,f,…,f, 中 相继 抽出 m 个 数 f,，,…,f._ 1,f.,f.,1，…,f.,,， 其 中 ff 为 窗 
口中 心 点 值 ,w= 了 一， 再 将 这 mm 个 点 的 值 按 大 小 排序 ， 取 其 序号 为 中 心 点 的 那个 值 作为 滤波 输 
出 。 用 数学 公式 表示 为 
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y=Mod io Ni (2-29) 
对 二 维 序列 {| 进行 中 值 滤波 时 ， 滤 波 窗 口 也 是 二 维 的 。 二 维 序列 的 中 值 滤波 可 以 表示 为 
ys = Med | Fl (2-30) 


式 中 ， 罗 为 滤波 窗口 。 

2. 中 值 滤 波 窗口 

中 值 滤波 的 关键 是 选择 合适 的 窗口 形状 和 大 小 ， 因 为 不 同形 状 和 大 小 的 滤波 窗口 会 带 来 不 
同 的 滤波 效果 。 一 般 要 根据 噪声 和 图 像 中 目标 物 细节 的 情况 来 选择 。 常 用 的 中 值 滤波 窗口 有 线 
状 、 十 字形 、 方 形 、 蓉 形 和 圆 形 等 ， 如 网 2-21 所 示 。 





























图 2-21 几 种 常用 的 中 值 滤波 窗口 














在 实际 使 用 滤波 窗口 时 ， 窗 口 大 小 一 般 先 取 3 再 取 5， 依 次 增 大 直到 滤波 效果 满意 为 止 。 对 
于 有 较 长 轮廓 线 物体 的 图 像 ， 采 用 方形 或 圆 形 窗口 较 合适 ， 对 于 包含 尖顶 角 几 何 结构 的 图 像 ， 一 
般 采 用 十 字形 滤波 窗口 较 合 适 ， 且 窗口 大 小 最 好 不 要 超过 图 像 中 最 小 目标 物 的 尺寸 ， 否 则 会 丢 
失 目 标 物 的 细小 几何 特征 。 使 用 二 维 中 值 滤 波 最 值得 注意 的 是 ， 要 保持 图 像 中 有 效 的 细 线 状 物 
体 。 如 果 图 像 中 点 、 线 、 尖 角 细 节 较 多 ， 则 不 宜 采用 中 值 滤 波 。 

3. 中 值 滤 波 的 主要 特性 

(1) 对 某 些 输入 信号 中 值 滤波 具有 不 变性 

对 某 些 特定 的 输入 信号 ， 如 在 窗口 内 单调 增加 或 单调 减少 的 序列 ， 中 值 滤波 的 输出 信号 仍 保持 
输入 信号 不 变 ， 即 : f., <…<f<…<f,, 或 f; ,=…zf=…zf.,,, 则 1y| =|fi1。 

一 维 中 值 滤波 这 种 不 变性 可 以 从 图 2-22a 和 图 2-22b 上 看 出 来 。 

二 维 序 列 中 值 滤波 的 不 变性 要 复杂 得 多 ， 它 不 但 与 输入 信号 有 关 ， 而 且 还 与 窗口 的 形状 有 
关 。 一般 地 ， 与 窗口 对 顶 角 连 线 垂直 的 边缘 经 滤波 后 将 保持 不 变 。 利 用 这 个 特点 ， 可 以 使 中 值 滤 
波 既 能 去 除 图 像 中 的 噪声 ， 又 能 保持 图 像 中 一 些 物体 的 边缘 。 

(2) 中 值 滤波 去 噪声 性 能 

图 2-22 所 示 为 由 长 度 为 5 的 窗口 采用 均值 滤波 、 中 值 滤波 的 方法 对 几 种 一 维 信号 的 处 理 
结果 。 左 边 一 列 为 输入 信号 的 原 波 形 ， 中 间 一 列 为 均值 滤波 的 结果 ， 右 边 一 列 为 中 值 滤波 的 
结果 。 可 以 看 到 中 值 滤波 不 影响 阶 跃 函 数 和 和 斜坡 函数 ， 因 而 对 图 像 的 边缘 有 保护 作用 。 但 是 ， 
对 于 持续 周期 小 于 窗口 尺寸 的 172 的 脉冲 将 进行 抑制 ， 如 图 2-22c 和 图 2-22d 所 示 ， 因 而 可 能 
损坏 图 像 中 某 些 细节 。 另 外 ， 三 角 波 信号 的 顶部 变 平 。 

图 2-23 所 示 为 邻 域 平 均 法 、 中 值 滤波 对 含 噪 图 像 的 去 噪 效 果 。 图 2-23a 和 图 2-23d 所 示 分 
别 为 含有 高 斯 噪声 的 图 像 和 含有 椒盐 噪声 的 图 像 ， 图 2-23b 和 图 2-23c 所 示 分 别 为 对 图 2-23a 
采用 3 x3 窗口 邻 域 平均 法 、5 x5 十 字 中 值 滤波 去 除 噪声 后 的 图 像 ， 网 2-23e 和 图 2-23f 所 示 分 别 
为 对 图 2-23d 采用 3 x3 窗口 邻 域 平均 法 、5 x5 十 字 中 值 滤波 去 除 噪声 后 的 图 像 。 显 然 ， 邻 域 平 
均 法 对 含有 高 斯 噪声 的 图 像 去 噪声 效果 较 好 ， 而 中 值 滤波 对 含有 椒盐 噪声 的 图像 去 噪声 效果 
较 好 。 
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a) 阶 跃 信号 


b) 斜坡 信号 


中 双 脉 冲 信号 


e) 三 脉冲 信号 


f) 三 角 波 信号 
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6) 3X3 邻 域 平均 f) 5X5 十 字 中 值 滤波 


到 2-23 ”中 值 滤 波 和 领域 平均 法 比较 
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2. 3.4 ”基于 非 局 部 相似 性 的 图 像 去 噪 


在 自然 图 像 中 ， 往 往 会 出 现 一 些 位 置 不 同 但 却 有 很 多 相似 之 处 的 图 像 区 域 ， 也 就 是 说 图 像 
中 包含 的 信息 其 实 是 具有 相关 性 的 。 不 仅 如 此 ， 与 目标 像 
素 点 有 着 相似 结构 的 像素 也 并 不 是 单纯 地 局 限 在 某 个 区 域 ， i 
位 于 图 像 中 任意 位 置 的 像素 点 都 有 可 能 表现 出 相似 性 。 如 
图 2-24 所 示 ， 图 中 示意 了 3 组 具有 非 局 部 相似 性 的 图 像 块 ， 
分 别 由 实 线 框 、 长 虚线 框 和 短 虚 线 框 表示 。 

基于 此 ， 若 能 够 有 效 利用 具有 相似 结构 的 图 像 块 来 衡 
量 像素 与 像素 之 间 的 联系 ， 则 像素 点 灰 度 值 的 估 值 会 更 接 
近 真 实 值 。 因 此 ， 在 2005 年 由 Buades 等 人 首次 提出 了 非 局 
部 均值 (Non-Local Mean，NLM) 滤波 算法 。 之 所 以 称 之 为 
非 局 部 的 方法 ， 主 要 是 由 于 这 些 具 有 相似 结构 的 图 像 块 都 
是 位 于 图 像 中 的 不 同位 置 。 可 以 看 出 ， 局 部 相似 性 主要 考 a 
虑 的 是 当前 像素 和 其 邻近 像素 的 相似 程度 ， 而 非 局 部 相似 0 
性 不 仅 考 虑 像素 值 的 相似 度 ， 还 要 兼顾 像素 周围 的 结构 是 否 相 似 。 

2007 年 ， 研 究 者 提出 了 一 种 块 匹 配 三 维 滤波 ( Block- Matching and 3D filtering，BM3D ) 算 
法 。BM3D 算法 在 基于 非 局 部 相似 性 的 基础 上 ， 又 融合 了 三 维 联合 滤波 的 技术 。2014 年 ，Zhang 
等 提出 了 一 种 加 权 核 范 数 最 小 化 (Weighted Nuclear Norm Minimization ，WNNM) 算法 。WNNM 算 
法 首先 将 具有 非 局 部 相似 性 的 图 像 块 进行 向 量化 ， 并 聚合 成 低 秩 抢 阵 ， 然 后 对 所 得 的 低 秩 矩阵 
的 奇异 值 赋予 不 同 的 权 值 ， 最 后 利用 加 权 核 范 数 最 小 化 算法 将 去 噪 问题 转化 为 优化 问题 进行 
求解 。 

1. NLM 算法 

非 局 部 均值 滤波 算法 认为 当前 点 像素 值 由 图 像 中 所 有 与 它 结 构 相 似 的 图 像 块 的 像素 值 加 权 
平均 得 到 。 即 利用 图 像 中 的 纹理 匈 余 信息 与 具有 重复 结构 的 信息 ， 计 算 相 似 块 的 加 权 (加 权 系 
数 取 决 于 图 像 块 之 间 的 相似 程度 ， 与 两 个 像素 点 的 空间 位 置 无 关 ) 平均 得 到 当前 点 的 像素 值 ， 
达到 去 除 噪 声 的 目的 。 

设 当 前 被 处 理 的 像素 点 为 i, j 为 i 的 邻 域 像素 点 ，N(i) 和 N(j) 分 别 是 以 i 为 中 心 的 像素 点 
和 以 j 为 中 心 的 像素 点 所 组 成 的 图 像 块 ， 则 i 和 j 之 间 的 相似 度 w( 7) 就 取决 于 N(i) 和 NN()) 
的 相似 度 ， 而 图 像 块 之 间 的 相似 度 采 用 高 斯 加 权 欧 氏 距 离 4(i, 7) 来 度量 ， 可 以 用 公式 表示 为 


oi) =op( -ei 
dD) = NG) -NO 1。 (2-31) 
式 中 ， 为 高 斯 核 丽 数 的 标准 差 ， 用 于 控制 指数 数 的 衰减 速度 。 


假定 滤波 后 的 图 像 为 f(i) ， 含 噪 图像 f= |f(i) lie 0 ， 其 中 0 是 图 像 区 域 , f(i) 表示 像素 
i 的 灰 度 值 ， 则 滤波 结果 为 




























































































2 wi DA) 
f= 导 (2-32) 
名 "人 让 
式 中 ，G@ 为 搜索 区 域 ， 可 以 是 整个 图 像 区 域 ,2， 但 般 为 了 避免 计算 复杂 度 高 ， 往 往 比 0 小。 





2. BM3D 算法 
BM3D 是 一 种 基于 块 处 理 的 去 噪 算法 ， 它 将 非 局 部 方法 和 变换 域 滤波 有 效 地 结合 起 来 。 
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BM3D 利用 非 局 部 相似 性 ， 通 过 块 匹 配 找 到 图 像 中 若干 相似 图 像 块 ， 并 把 这 些 图 像 块 堆 芭 成 一 个 
三 维和 矩阵 ;然后 对 该 三 维 矩 阵 执行 可 分 离 的 三 维 变换 ， 即 对 每 个 图 像 块 执行 二 维 变换 后 再 执行 
块 间 的 一 维 变换 ， 接 着 采用 硬 阔 值 策 略 收缩 变换 系数 。 一 般 情 况 下 ， 由 块 匹配 操作 得 到 的 相似 块 
会 存在 一 些 重 琶 ， 所 以 将 逆 变 换 后 的 图 像 块 加 权 平 均 ( 称 为 聚集 ) ， 放 回 原 位 置 来 获得 最 终 的 去 
噪 图 像 。 

BM3D 算法 的 去 噪 过 程 分 为 两 个 步 又。 每 个 步骤 都 有 块 分 组 和 联合 滤波 ， 但 采用 的 具体 方法 
稍 有 不 同 。 步 又 1 一 生成 含 噪 图 像 的 基础 估计 (〈 即 初步 去 噪 结果 ) ， 步 骤 2 一 对 步骤 1 生成 的 基础 
估计 再 次 去 品 ， 形 成 最 终 估 计 。 

首先 ， 在 步骤 1 中 对 含 噪 图像 进行 相似 块 匹 配 。 将 图 像 划分 成 一 定 大 小 的 若干 个 参考 块 ， 在 
每 个 参考 块 周围 一 定 区 域内 ( 称 为 搜索 窗 进行 搜索 ， 匹 配 出 若干 个 相似 块 ， 通 常用 欧 氏 距离 
即 忆 范 数 来 衡量 图 像 块 之 间 的 相似 性 ， 欧 氏 距 离 越 小 ， 相 似 度 越 高 ， 可 以 将 欧 氏 距离 小 于 冰 值 的 
块 作为 相似 块 ， 然 后 将 这 些 相 似 块 整合 成 一 个 三 维和 矩阵 。 对 三 维和 矩阵 进行 3D 变换 ， 再 对 变换 结 
果 进 行 硬 阔 值 处 理 ， 即 把 变换 系数 中 小 于 某 个 阔 值 的 系数 置 0， 然 后 通过 反 3D 变换 得 到 处 理 后 
的 图 像 块 ， 并 把 它们 聚合 到 它们 原来 在 图 像 中 的 位 置 ， 这 样 便 可 以 得 到 含 噪 图 像 的 基础 估计 结 
果 ， 其 中 基础 估计 图 像 中 每 个 像素 值 由 其 所 属 的 相似 匹配 块 的 对 应 位 置 的 像素 值 加 权 平 均 得 到 。 

然后 ， 在 步骤 2 中 通过 含 噪 图 像 和 基础 估计 进行 更 细致 的 去 噪 。 步 又 2 中 的 处 理 方式 与 步 又 
1 中 的 处 理 方式 非常 的 相似 。 此 步骤 中 同样 需要 进行 相似 块 匹配 。 与 步骤 1 不 同 的 是 ， 步 又 1 在 
原始 含 噪 图 像 内 进行 匹配 ， 而 步骤 2 则 是 在 步骤 1 生成 的 初步 去 噪 图 像 内 进行 匹配 形成 一 个 三 维 
抢 阵 ， 同 时 利用 这 些 匹 配 块 的 坐标 在 原始 含 噪 图 像 中 提取 同样 坐标 的 图 像 块 来 构成 另外 一 个 三 
维 矩 阵 。 另 外 ， 此 步骤 中 也 需要 进行 3D 变换 和 反 3D 变换 ， 主 要 区 别 是 把 步骤 1 中 的 硬 阔 值 滤 
波 用 维 纳 滤 波 来 替换 ， 以 此 来 获得 更 好 的 估计 图 像 。 最 后 利用 基础 估计 图 像 中 的 权 值 对 噪声 交 
组 进行 滤波 ， 并 通过 聚集 对 有 重 释 的 块 重新 估 值 ， 加 权 平 均 得 到 最 终 去 噪 图像。 

BM3D 算法 流程 示意 图 如 图 2-25 所 示 。 
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图 2-25 BM3D 算法 流程 示意 图 


3. WNNM 算法 
WNNM 算法 同样 先 利 用 非 局 部 相似 性 ， 对 图 像 进行 分 块 匹配 后 得 到 相似 块 矩 阵 ， 然 后 将 该 
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相似 块 矩 阵 分 解 为 干净 数据 矩阵 和 噪声 数据 矩阵 之 和 ， 其 中 和 干净 数据 矩阵 因为 图 像 数据 之 间 的 
相似 性 具有 低 秩 特性 ， 而 噪声 数据 因 其 自身 离散 随机 的 特点 而 呈现 稀 玖 性 。 由 此 ， 通 过 求解 最 小 
化 矩阵 的 秩 这 个 优化 问题 来 复原 原始 图 像 数据 。 由 于 最 小 化 矩阵 的 秩 为 非 凸 的 优化 问题 ， 因 此 
将 最 小 化 矩阵 的 秩 松弛 为 最 小 化 矩阵 的 核 范 数 〈 核 范 数 为 矩阵 奇异 值 之 和 ) ， 并 对 低 秩 矩阵 的 奇 
异 值 根据 其 数值 大 小 赋予 不 同 的 权重 ， 最 后 通过 求解 加 权 核 范 数 最 小 将 去 噪 问题 解决 。 低 秩 矩 
阵 对 数据 具有 较 强 的 全 局 描述 能 力 和 抗 干扰 能 力 ， 能 够 充分 发 挥 图像 相 似 块 之 间 的 非 局 部 信息 ， 
获得 更 好 的 去 品 效 果 。 

WNNM 算法 的 原理 描述 如 下 。 

假设 低 秩 矩 阵子 ( 即 原始 干净 的 相似 块 组 ) 受到 噪声 N 的 干扰 变 成 了 和 矩阵 了 ( 即 含 噪 图 
像 )， 于 是 低 秩 和 矩阵 恢复 可 用 如 下 优化 问题 来 描述 ， 即 

全 =argmin rank (XK) +ANY-X)|: ss 二 了 = 和 + (2-33 ) 

式 中 ，rank( 际 ) 表示 求解 于 的 秩 ; 4 为 一 个 正 的 常数 ， 称 为 正则 化 因子 。 

将 上 述 秩 最 小 化 问题 松弛 为 核 范 数 最 小 化 模型 ， 即 
全 =argmin | | +4NY-X)|: st Y=X+N (2-34) 
式 中 ，| 外 | ,表示 对 的 核 范 数 ， 定 义 为 的 奇异 值 的 和 ， 即 上 XX。 = 之 1 0,(X)1, 其 中 oo 


( 革 ) 为 矩阵 对 的 第 i 个 奇异 值 。 
上 述 模型 可 以 借助 软 阔 值 收缩 来 求解 ， 即 
是 = US; (DV (2-35) 
S (之 ) = max( 2», -4,0) (2-36) 
式 中 ,了 =U2》V 是 了 的 SVD 奇异 值 分 解 ; S, ( > ) 为 软 阔 值 操作 算 子 。 软 阔 值 算 子 对 所 有 奇异 
值 都 用 同一 个 4 进行 收缩 ， 这 样 就 忽略 了 先 验 知识 : 通常 大 的 奇异 值 对 应 图 像 数 据 ， 小 的 奇异 值 
对 应 噪声 ， 较 大 的 奇异 值 对 图 像 重 建 有 更 大 的 作用 。 因 此 ， 对 不 同 重要 性 的 奇异 值 做 同样 的 收缩 
不 合理 。 最 好 用 小 值 收缩 大 的 奇异 值 ， 而 用 大 值 收 缩小 的 奇异 值 ， 以 保护 数据 中 的 主要 部 分 ， 忽 
略 不 重要 的 或 是 噪声 的 部 分 。 
在 截断 核 范 数 正 则 化 〈Truncated Nuclear Norm Regularization ，TNNR) 算法 中 ， 采 取 二 元 截 
断 的 方式 决定 哪些 奇异 值 被 截取 来 进行 正则 化 。 为 此 ， 为 了 提高 核 范 数 的 灵活 度 ，WNNM 算法 
运用 了 加 权 核 范 数 的 模型 ， 即 






































































































































1 = 2 wo(X) | (2-37) 
式 中 ，w, 宇 0 为 加 权 系 数 。 
此 时 ， 软 阔 值 收缩 将 变 为 
是 = US,( DV 
5, (之 ) = max( > -w,,0) (2-38 ) 
式 中 ，wi =cvn《L(eai(X) +e); 0,( 耻 ) 为 的 第 i 个 奇异 值 ; c 是 一 个 常数 ; 为 相似 块 的 个 数 ; 
s =10 “是 为 了 避免 除数 为 零 而 增加 的 系数 。 由 于 站 的 奇异 值 是 不 可 知 的 ， 假 设 噪 声 均匀 分 布 在 
噪声 空间 ， 则 可 以 根据 式 (2-39) 来 估计 。 
oj(X) = /max(o (YY) -no’,0) (2-39) 
式 中 , o,(7Y) 是 了 的 第 i 个 奇异 值 。 
对 每 一 个 相似 块 组 都 进行 上 述 操作 ， 就 可 以 重建 去 噪 后 的 图 像 。 
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图 2-26 所 示 为 NLM、BM3D、WNNM 三 种 算法 的 去 噪 效果 。 





c) NLM 算 法 d) BM3D 算 法 e) WNNM 算 法 











到 2-26 ”NLM、BM3D、WNNM 三 种 算法 的 去 品 效 果 


2.3.5 频率 域 低 通 滤 波 


从 信号 频谱 角度 来 看 ， 信 号 的 缓慢 变化 部 分 在 频率 域 属 于 低频 部 分 ， 而 信号 的 迅速 变化 部 
分 在 频率 域 属于 高 频 部 分 。 对 图 像 来 说 ， 它 的 边缘 以 及 噪声 干扰 的 频率 分 量 都 处 于 频率 域 较 高 
的 部 分 。 因 此 ， 若 要 在 频率 域 中 消除 噪声 干扰 的 影响 ， 就 要 设法 减弱 高 频 分 量 ， 可 以 采用 低 通 滤 
波 的 方法 来 减弱 高 频 分 量 ， 以 达到 去 除 噪声 的 目的 。 

在 频率 域 ， 低 通 滤波 器 输出 的 表达 式 为 

Gl(u,v) =H(u,v)F(u,v) (2-40) 

式 中 ,，F(wu, v) 是 含 噪声 图 像 的 侍 里 叶 变 换 ，H(wu,v) 是 线性 低 通 滤波 器 传递 函数 ( 即 频谱 响 
应 ); G(wu, v) 是 低 通 滤波 平滑 处 理 后 图 像 的 传 里 叶 变 换 。 利 用 五 (w, v) 使 F(w,v) 的 高 频 分 
量 得 到 衰减 ， 得 到 G(w,， vw) 后 再 经 过 傅 里 叶 反 变换 就 得 到 所 希望 的 图 像 g(x，y)。 

低 通 滤波 平滑 处 理 的 流程 框图 如 图 2-27 所 示 。 


f(x,y) | 傅 里 时 变换 | Flu,v) | 线性 低 通 滤 波 器 | Gl(u,v) | 傅 里 叶 反 变换 | g(x,y) 
F[flx, »)] Fl[G(u, v)] 



























图 2-27 低 通 滤波 平滑 处 理 的 流程 框图 




















常用 的 频率 域 低 通 滤波 器 有 : 理想 低 通 滤 波 器 、 巴 特 沃 效 ( Butterworth) 低 通 滤波 器 、 高 斯 
低 通 滤波 器 、 梯 形 低 通 滤波 器 等 。 

1. 理想 低 通 滤波 器 

理想 低 通 滤波 器 的 传递 函数 有 H(wu, v) 为 
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四 ) 数字 图 像 与 视频 处 理 

















1, D(u,v)<D, 

es 0, D(u,v) >D, (2-41) 
式 中 ，7 为 理想 低 通 滤波 带 的 截止 频率 ， 是 一 个 事先 设 定 的 非 负 的 量 ; D(u,v) 为 频率 平面 上 
的 点 (u,v) 到 频率 平面 原点 (0, 0) 的 距离 ， 即 

D(u,v) = Vu +v (2-42) 
理想 低 通 滤 波 带 传递 函数 的 透视 图 、 俯 视图 和 径 向 剖面 分 别 如 图 2-28a、 图 2-28b 和 图 2-28c 所 
示 。 通 过 将 径 向 剖面 绕 原点 旋转 360° 即 可 得 到 完整 的 理想 低 通 滤波 器 传递 函数 ， 也 即 图 2-28a 所 
示 的 传递 函数 H(wu,v) 的 透视 图 。 该 透视 图 的 含义 是 : 只 有 那些 位 于 该 圆柱 体内 的 频率 分 量 才 
能 无 损 地 通过 该 滤波 器 ， 而 位 于 圆柱 体外 的 频率 分 量 都 将 被 滤 除 掉 。 






























































H(u, v) 


H(u, v) 
1 








| Do DU 
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a) b) c) 

图 2-28 理想 低 通 滤波 器 的 特性 


需要 说 明 的 是 ， 理 想 低 通 滤波 右 的 数学 意义 是 十 分 清楚 的 ， 利 用 计算 机 对 其 进行 模拟 也 是 
可 行 的 ,但 在 实际 中 却 不 能 用 电子 元 屁 件 来 实现 H(wu, v) 从 1 到 0 陡峭 的 突变 ， 所 以 才 将 其 称 
为 “理想 ” 低 通 滤波 器 。 另 外 ， 理 想 低 通 滤波 器 在 消减 噪声 的 同时 ， 随 着 所 选 截止 频率 六 的 不 
同 ， 会 发 生 不 同 程度 的 “ 振 铃 (Ring)” 现 象 ， 使 得 经 滤波 右 后 的 图 像 变 模糊 了 人。 截止 频率 D, 
越 低 ， 滤 除 噪 声 越 彻 底 ， 但 高 频 分 量 损失 也 越 严重 ， 图 像 就 越 模糊 。 

2. 巴特 沃 兹 低 通 滤波 器 

巴特 沃 效 低 通 滤波 器 又 称 为 最 大 平坦 滤波 器 。 它 与 理想 低 通 滤波 器 不 同 ， 它 的 通 带 和 阻 带 
之 间 没 有 明显 的 不 连续 性 。 也 就 是 说 ， 在 通 带 和 阻 带 之 间 有 一 个 平滑 的 过 渡 带 。 

一 个 n 阶 巴 特 沃 兹 低 通 滤波 带 的 传递 函数 H(wu, v) 为 

1 

D(u,v) 二 

i | | 


通常 把 H(w，v) 下 降 到 某 一 值 的 那个 频率 点 定 为 截止 频率 Dp,。 在 式 (2-43) 中 是 把 H(u， v) 
下 降 到 原来 值 的 1/2 时 的 D(w,v) 定义 为 截止 频率 D,。 一 般 情况 下 ， 常 常 采用 把 (wu,，v) 下 降 


至 其 最 大 值 的 三 时 的 D(w，?) 定义 为 共 止 频率 D,， 该 点 也 常 称 为 半 功率 点 。 这 样 ， 式 (2-43) 
可 修改 为 式 (2-44) 的 形式 ， 即 
H(u,v) = 
































H(u,v) = 





(2-43) 





1 
|. 


式 (2-43) 与 式 (2-44) 的 区 别 在 于 截止 频率 D, 的 定义 不 同 ,，H(wu, v) 具有 不 同 的 衰减 特 
性 ， 可 视 需 要 来 确定 。 
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(2-44) 





巴特 沃 兹 低 通 滤波 右 传 递 函 数 的 透视 图 、 俯 视图 及 径 向 剖面 分 别 如 图 2-29a、 图 2-29b 和 
图 2-29c 所 示 。 该 透视 图 的 含义 是 : 只 有 那些 位 于 草帽 形体 内 的 频率 范围 的 信号 才能 通过 ， 而 位 
于 草帽 形体 外 的 频率 成 分 都 将 被 衰减 。 由 图 可 见 ， 巴 特 沃 斯 低 通 滤波 器 在 高 、 低 频率 间 的 过 渡 比 
较 平滑 。 图 2-29c 中 的 为 阶 数 ， 取 正 整 数 ， 用 它 控 制 曲线 的 形状 。 
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H(u, v) Hlu, vo) 
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图 2-29 巴特 沃 兹 低 通 滤波 妖 的 特性 


与 理想 低 通 滤波 器 的 处 理 结 果 相 比 ， 经 巴特 沃 兹 低 通 滤波 器 处 理 的 图 像 模 糊 程度 会 减轻 ， 
因为 它 的 H(u,v) 不 是 陡峭 的 截止 特性 ， 它 的 尾部 会 包含 大 量 的 高 频 成 分 。 另 外 ， 经 巴特 沃 效 
低 通 滤波 器 处 理 的 图 像 将 不 会 有 振 铃 现象 。 这 是 由 于 在 滤波 器 的 通 带 和 阻 带 之 间 有 一 平滑 过 渡 
的 缘故 。 

3. 高 斯 低 通 滤波 器 

由 于 高 斯 函数 的 傅 里 叶 变换 和 反 变 换 均 为 高 斯 函数 ， 并 常常 用 来 帮助 寻找 空间 域 与 频率 域 
之 间 的 联系 ， 所 以 基于 高 斯 函数 的 滤波 具有 特殊 的 重要 意义 。 

一 个 二 维 的 高 斯 低 通 滤波 器 的 传递 函数 定义 为 
H(u,v) =0- 党 (2-45) 
式 中 ,，D(w, v) 为 频率 平面 上 的 点 (u,v) 到 频率 平面 原点 (0，0) 的 距离 ;er 表示 高 斯 曲线 
扩展 的 程度 。 当 o = D, 时 ， 可 得 到 高 斯 低 通 滤波 器 的 一 种 更 为 标准 的 表示 形式 
H(u,v) =e = 出 (2-46) 
式 中 ，D, 是 截止 频率 ; D(wu, v) =D, 时 , H(u, v) 下 降 到 其 最 大 值 的 0.607 处 。 
高 斯 低 通 滤波 器 传递 函数 的 透视 网、 俯视 图 及 径 向 剖面 图 如 图 2-30 所 示 。 






























































































































































H(u, v) 

















图 2-30 高 斯 低 通 滤波 器 传递 函数 的 特性 
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(©) 数字 图 像 己 神 频 处 理 


与 巴特 沃 斯 低 通 滤波 器 相 比 ， 高 斯 低 通 滤波 器 没有 振 铃 现象 。 另 外 在 需要 严格 控制 低频 和 
高 频 之 间 截 止 频率 过 渡 的 情况 下 ， 选 择 高 斯 低 通 滤波 器 更 合适 一 些 。 

4. 梯形 低 通 滤波 器 

梯形 低 通 滤波 器 的 传递 函数 定义 为 
























































] ， Dl(u,v) <D, 
D(u,v) -也 

H(u,v) = pp D,<D(u,v) <D, (2-47) 
0 ， D(u,v) >D, 


式 中 ，D, 为 截止 频率 ; D, 可 任 选 ,但 必须 大 于 D,。 
梯形 低 通 滤波 右 的 滤波 性 能 介 于 理想 低 通 滤波 器 和 具有 平滑 过 渡 带 的 滤波 器 之 间 ， 滤 波 后 
图 像 既 有 一 定 的 模糊 ， 也 存在 一 定 的 振 铃 现象 。 


2.3.6 基于 稀 破 表示 的 图 像 去 噪 


在 对 信号 进行 分 析 时 ， 如 何 对 信号 进行 有 效 表示 是 一 个 重要 的 问题 。 传 统 的 信号 表示 理论 
往往 是 基于 正 交 变换 ， 比 如 离散 余弦 变换 。 自 然 界 的 网 像 本 身 是 存在 自 相 关 性 的 ， 从 某 种 程度 上 
来 讲 ， 大 多 数 的 自然 图 像 都 是 可 压缩 的 。 对 数字 图 像 而 言 ， 用 二 维 函 数 /(i,j) 来 表示 ， 就 存在 
着 大 量 信息 的 宛 余 ， 可 以 有 其 他 简练 的 表达 式 ， 比 如 将 图 像 转换 到 其 他 的 域 中 进行 表示 。 从 数学 
角度 分 析 ， 图 像 的 稀 玖 表示 实质 上 就 是 对 图 像 数 据 进行 稀 跪 分解。 为 了 方便 说 明 稀 玖 性 ， 先 给 出 
范 数 的 定义 。 信 号 w= ( ,ww,… ,uwy)” 的 范 数 上 .|, 定义 为 

上 有 | (2-48 ) 

当 p =0 时 ，|| |, 称 为 信号 的 1 范 数 ， 也 就 是 信号 非 零 元 素 的 个 数 ， 当 p =1 时 ，|| .| , 称 
为 信号 的 4 范 数 ， 也 就 是 信号 中 所 有 元 素 的 绝对 值 之 和 ; 当 p =2 时 ，|| |, 称 为 信号 的 4 范 数 
(也 被 称 为 欧 氏 范 数 ) ， 也 就 是 信号 中 各 个 元 素 的 平方 和 开 根 号 ; 当 p 一 % 时 ，… ,为 信号 中 
各 个 元 素 求 绝对 值 后 的 最 大 值 ， 即 | 。 = maxlu, ls 
稀 玻 的 定义 如 下 。 
建立 一 个 数据 库 D=[d,,d,,…,dy] eR"(M>N) (D 称 为 “字典 ”"， 其 每 一 个 元 素 d, 都 是 
一 个 NV 维 的 列 向 量 ) ， 用 来 分 析 图 像 ， 不 要 求 字 典 D 中 的 原子 (也 称 为 “ 基 范 数 ”) 相互 正 交 。 
如 果 将 图 像 信号 (大 小 为 VN x VN) 看 成 一 维 向 量 半 e R*"， 可 以 用 式 (2-49) 进行 线性 表示 

=Da (2-49) 
式 中 ,，@ =[a,@,…,Qy] eR" 称 为 图 像 半 在 字典 D 上 的 分 解 系数 ，@ 中 非 零 元 素 的 个 数 称 为 w 
的 1 范 数 。 当 范 数 为 E(k<M) 的 时 候 ， 就 称 图 像素 在 字典 万 下 是 马 稀 玻 的 ， 或 者 说 ， 称 em 为 
- 稀 艳 的 。 

当 字 上 典 D 中 原子 个 数 M 大 于 图 像 信 号 的 维度 NN 时， 字典 DD 中 的 原子 线性 相关 ， 故 称 DD 为 宛 
余 的 。 当 字典 DD 是 匈 余 的 ， 并 可 以 扩张 成 N 维 欧 氏 空间 时 ， 称 字典 D 为 超 完备 的 或 者 过 完备 的 。 
过 完备 系统 能 够 为 信号 提供 更 稀 跑 的 表示 ， 同 时 对 噪声 与 误差 具有 一 定 的 鲁 棒 性 。 当 字典 D 中 
原子 个 数 必 等 于 图 像 信 号 的 维度 NN 时 ,字典 DD 中 的 原子 线性 无 关 ， 故 称 DD 为 完备 的 。 

由 于 超 完备 字典 的 特性 ， 信 号 在 这 种 字典 下 的 表示 系数 是 不 唯一 的 ， 因 此 图 像 的 稀 玖 表示 
就 致力 于 寻找 关于 字典 的 最 稀 踊 表达 。 

稀 玖 表示 具有 两 个 特征 ， 过 完备 性 ( Overcompleteness) 和 稀 蚊 性 (Sparsity ) 。 过 完备 性 表示 
字典 中 原子 的 个 数 远 远 大 于 信和 号 的 维 数 ， 相 对 正 交 基 ， 过 完备 字典 包含 有 更 丰富 的 原子 ， 能 够 提 
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供 更 稳定 和 稀 玻 的 表示 。 图 像 稀 琉 表示 的 含义 就 是 图 像 通 过 过 完备 字典 表示 的 系数 是 稀 玻 的 ， 
也 就 是 说 ， 仅 需 字 典 中 的 少量 原子 即 可 对 图 像 进行 准确 的 线性 表示 。 那 么 从 理论 上 如 何 对 稀 政 
进行 较 准 确 的 估计 ， 怎 么 样 才 称 为 最 稀 足 ? 显 然 ， 对 图 像 信 号 最 简单 而 旦 直接 的 稀 玲 测度 为 求 图 
像 信 号 的 力 范 数 ， 即 计算 信号 中 非 零 元 素 的 个 数 ， 则 稀 玻 表示 问题 可 以 描述 为 
minl|all, s.t.X=Da (2-50) 
式 (2-50) 是 求 稀 玻 解 的 最 优化 问题 ， 属 于 组 合 搜索 问题 。 这 个 求解 过 程 理 论 上 是 可 以 实现 
的 ， 但 是 在 实际 运算 中 存在 不 少 问题 ， 例 如 计算 量 非常 大 等 。 这 个 问题 的 求解 属于 NP- hard 问 
题 。 幸 和 运 的 是 ， 虽 然 上 述 NP-hard 问题 不 好 求解 ， 但 是 可 以 用 更 加 松弛 的 刀 范 数 〈 即 稀 玻 向 量 a 
中 所 有 元 素 的 绝对 值 之 和 ) 进行 求解 ， 即 可 以 把 4, 范 数 最 小 化 问题 转换 为 4, 范 数 的 凸 优 化 求解 


问题 


为 



















































































minl|all, s.t.X=Da (2-51) 

当 图 像 中 存在 噪声 的 时 候 ， 一 般 情 况 下 ， 不 需要 完全 准确 地 对 图 像 进行 重 构 ， 上 述 优化 问题 
可 以 转换 为 式 (2-52) 的 不 等 式 约束 即 稀 疏 副 近 ) 问题 

minl|lall, st |X¥-Dall;<e (2-52) 
式 中 ，s 表示 允许 的 误差 。 当 a =0 时 ， 即 为 稀 玖 表示 问题 。 

不 含 噪声 的 干净 图 像 一 般 具 有 一 定 的 规律 特性 ， 主 要 分 布 在 过 完备 字典 中 有 限 的 原子 上 ， 
随机 噪声 则 往往 分 布 在 整个 字典 空间 上 。 对 图 像 在 过 完备 字典 上 进行 稀 玻 分 解 ， 其 去 噪 过 程 就 
是 一 个 逼近 的 过 程 。 只 要 设置 合适 的 通 近 误差 <， 就 可 以 实现 图 像 去 品 。 基 于 稀疏 表示 的 图 像 去 
品 的 流程 框图 如 图 2-31 所 示 。 

从 图 2-31 可 以 看 出 ， 基 于 















































计 空 人 1 医 | 品 县 jo 含 噪 图 像 划分 为 
过 完备 稀 朴 表示 的 图 像 去 噪 是 含 噪 图 像 X 国信 全 2 


在 一 定 的 过 完备 字典 下 ， 对 每 
个 小 图 像 块 进行 稀 玖 表示 来 完 


稀 玻 分 解 是 稀 玻 表示 的 两 个 关 


键 因素 。 图 2-31 基于 稀 玻 表示 的 图 像 去 噪 的 流程 框图 

稀 玲 表示 中 字典 的 发 展 从 
最 开始 的 正 交 基 到 宛 余 正 交 基 ， 再 到 现在 的 过 完备 字典 ， 体 现 了 向 宛 余 发 展 的 趋势 。 目 前 ， 过 完 
备 字 典 的 构建 方法 主要 有 以 下 两 类 。 

1) 选择 目前 已 有 的 某 种 变换 域 中 的 正 交 基 作 为 字典 ， 即 固定 字典 。 但 这 类 字典 由 于 构成 的 
单一 性 ， 不 能 完全 有 效 地 稀 玖 表示 图 像 信 号 。 

2) 通过 对 样本 训练 来 学 习 获 得 过 完备 字典 。 通 过 训练 ， 可 以 获得 某 一 类 信号 特征 的 字典 ， 
并 将 其 应 用 到 和 训练 样本 有 类 似 结构 的 信号 上 进行 处 理 , 保 证 信号 分 解 的 稀 玖 性 ， 缺 点 是 因为 
要 训练 字典 ， 所 以 运行 时 间 较 长 。 此 类 方法 是 目前 的 主流 字典 构建 方法 。 

对 于 求解 超 完备 稀 玻 表示 最 优化 问题 ， 大 致 有 三 类 ， 分 别 是 : 针对 L 范 数 最 小 的 贪 楚 优化 算 
法 、 和 针对 7 范 数 最 小 的 线性 规划 优化 算法 ， 以 及 统计 优化 稀 玖 分 解 算法 。 

在 迄今 出 现 的 稀 跑 表 示 去 品 算 法 中 ,以 K- 奇异 值 分 解 (K- Singular Value Decomposition， 
K-SVD) 算法 最 具 代 表 性 。K-SVD 算法 由 Elad 、Aharon 等 人 在 2006 年 提出 ， 并 迅速 发 展 成 为 字 
典 优化 更 新 的 主流 算法 。 其 主要 利用 过 完备 字典 的 宛 余 性 对 图 像 进行 稀 玲 表示 。 由 于 随机 噪声 
几乎 不 存在 结构 性 ， 不 能 被 原子 稀 玻 表示 ， 因 此 ， 通 过 稀 玻 表示 ， 能 够 保留 原始 图 像 的 结构 特 
征 ， 在 去 除 噪声 的 同时 更 好 地 保持 图 像 信 息 。 字 典 优 化 更 新 的 主要 思想 是 : 在 过 完备 训练 字典 的 
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(©) 数字 图像 与 视频 处 理 


前 提 下 ， 不 断 地 对 字典 中 的 原子 进行 更 新 调整 ， 目 的 是 为 了 能 够 达到 和 用 来 训练 的 信号 集 最 大 












































程度 上 的 匹配 。 
K-SVD 算法 主要 是 用 稀疏 表示 和 字典 学 习 的 方法 来 解决 以 下 问题 ， 
[es XK} = argyint | X -Yi + Spsloslo + > Dos- RX (2-53) 


其 中 ， 式 (2-53) 的 右边 第 一 项 为 数据 保 真 项 ， 用 来 控制 含 品 信 号 ;矩阵 了 与 原始 干净 乍 阵 天 之 间 
的 逼近 程度 ，4 是 正则 化 参数 ; 式 (2-53) 的 右边 第 二 项 为 稀疏 性 约束 ，aw., 为 稀疏 向 量 ; 式 (2- 
53) 的 右边 第 三 项 要 求 每 个 图 像 块 重建 误差 尽 可 能 小 ， 表 示 重 建 子 块 与 原子 块 的 相似 性 ，D 为 
字典 ，R 为 子 块 提取 和 矩阵 。 

K-SVD 去 噪 算法 主要 包括 以 下 两 个 步 又 。 

1) 稀 玖 求解 : 通过 固定 D 和 站 ,利用 贪 禁 算法 如 正 交 匹配 追踪 (Orthogonal Matching Pur- 
suit，OMP) 来 更 新 称 琶 向 量 总 。 

2) 字典 更 新 : 对 相应 残 差 矩阵 进行 SVD 分 解 并 仅 保 留 第 一 个 主 分 量 ， 即 对 残 差 矩阵 做 秩 为 
1 的 近似 ， 由 此 更 新 每 个 字典 原子 及 该 原子 对 应 的 系数 。 字 典 的 更 新 逐 列 进行 ， 通 过 对 每 一 列 残 
差 的 SVD 分 解 来 更 新 字典 的 每 一 列 ， 从 而 达到 更 新 整个 字典 的 目的 。 
经 过 上 述 两 个 步骤 的 多 次 迭代 ， 找 到 近似 最 优 的 字典 D， 然 后 通过 加 权 平 均 得 到 最 终 去 虽 后 
的 图 像 。 


2.4 图像 锐 化 


图 像 在 形成 和 传输 过 程 中 ， 由 于 成 像 系 统 聚 焦 不 好 或 信道 的 带宽 过 窗 ， 结 果 会 使 图 像 目 标 
物 轮 廓 变 模糊 ， 细 节 不 清晰 ， 使 图 像 特征 提取 、 识 别 和 理解 难以 进行 。 图 像 锐 化 的 目的 是 为 了 突 
出 图 像 的 边缘 信息 ， 加 强 图 像 的 轮 廊 特征， 以 便于 人 了 眼 的 观察 和 机 器 的 识别 。 

从 增强 岁 像 的 边缘 和 轮廓 的 目的 看 ， 图 像 锐 化 是 与 图 像 平 滑 相反 的 一 类 处 理 。 岁 像 平 滑 滤 
波 会 使 图 像 的 边缘 和 轮廓 变 模糊 。 如 果 从 数学 的 观点 看 ， 图 像 模糊 的 实质 就 是 图 像 受 到 平均 或 
者 积分 运算 的 影响 ， 因 此 对 其 进行 逆 运 算 ( 如 微分 、 差 分 、 梯 度 运 算 )， 就 可 以 使 图 像 的 边缘 和 
轮廓 变 清晰 。 若 从 频率 域 分 析 ， 图 像 模 糊 的 实质 是 表示 目标 物 轮廓 和 细节 的 高 频 分 量 被 衰减 ， 因 
而 在 频率 域 可 采用 高 频 提升 滤波 的 方法 来 增强 图 像 。 因 此 ， 图 像 的 锐 化 也 有 空间 域 和 频率 域 两 
类 处 理 方法 。 


2.4.1 梯度 运算 ( 算 子 ) 
对 于 图 像 Ax，y) ， 它 在 点 (x,，y) 处 的 梯度 是 一 个 二 维 列 向 量 ， 定 义 为 

































































































































































of 
O% of T 
Gf)1 =| ar 上 ¥] =[6, 6 (2-54) 
907 
梯度 的 方向 在 函数 A(x,，y) 最 大 变化 率 的 方向 上 ， 梯度 的 幅度 ( 模 值 ) 可 由 下 式 计算 : 
[|G[f(x,y)]|= VG +G = 台 + 的 (2-55) 








不 难 证 明 ， 梯 度 的 幅度 |G[f(x,y) ] | 是 一 个 各 向 同性 的 算 子 ， 并且 是 f(x, y) 沿 G 向 量 方 
向 上 的 最 大 变化 率 。 梯 度 幅 度 是 一 个 标量 ， 它 用 到 了 平方 和 开平 方 运 算 ， 具有 非 线 性 ， 并 且 总 是 
正 的 。 为 了 方便 起 见 ， 以 后 把 梯度 幅度 简称 为 梯度 。 在 实际 计算 中 ， 为 了 降低 图 像 的 运算 量 ， 常 
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用 绝对 值 或 最 大 值 代替 平方 和 平方 根 运 算 。 
对 于 数字 图 像 而 言 ， 有 两 种 二 维 离散 梯度 的 计算 方法 ， 一 种 称 为 水 平 垂 直 差 分 法 ， 如 
图 2-32a 所 示 ， 其 数学 表达 式 为 
[GLfCG, DJ] N= [FGr1,7) -fi 1+ fi,j+1) -fi,)) | (2-56) 
另 一 种 称 为 罗伯茨 梯度 (Roberts Gradient) 的 差分 法 ， 如 图 2-32b 所 示 ， 采用 交叉 差分 运 




































































[IG[fC)D 1 |= |fGr1,j+1) -fi 7) | + fi,j+1) -fi+t1,)) | (2-57) 
值得 注意 的 是 ， 以 上 两 种 梯度 近似 算法 无 法 直 fi fii) fi) fi jt1) 
接 求 得 在 图 像 的 最 后 一 行 或 最 后 一 列 像素 的 梯度 ， 。 四 时 
般 就 用 前 一 行 或 前 一 列 的 各 点 梯度 值 近似 代替 >a 
由 梯度 的 计算 可 知 ， 其 值 是 与 相 邻 像素 的 灰 度 
差 值 成 正比 的 。 图 像 中 灰 度 变化 较 大 的 边缘 区 域 其 ft1,) Aitl, jt1) fit1,)) Fitl, tl) 
梯度 值 大 ， 在 灰 度 变化 平缓 的 区 域 其 梯度 值 较 小 ， 风 b) 


WO 由 此 可 见 ， 图像 ”图 2-32 数字 图 像 梯 度 的 两 种 差分 运算 方法 
经 过 梯度 运算 后 ， 留 下 灰 度 值 急剧 变化 的 边缘 处 的 
点 ， 这 就 是 图 像 经 过 樟 度 运算 后 可 使 其 










































































细节 清晰 从 而 达到 锐 化 目的 的 实质 。 
图 2-33b 是 采用 水 平 垂直 差分 法 一 
对 图 2-33a 锐 化 的 效果 ， 锐 化 后 仅 留 
下 灰 度 值 急剧 变化 的 边沿 处 的 点 。 CH! 
当 梯 度 计算 完 之 后 ， 可 以 根据 需 < 一 > 
要 生 度 增 强 图 像 。 
一 种 方法 是 使 输出 图 像 各 像素 a) 原始 图 像 b) 梯度 运算 效果 
的 灰 en 图 2-33 ”梯度 运算 效果 
度 ， 即 
zj)=1GLAGD 门 ] | (2-58) 
此 种 方法 的 缺点 是 输出 的 图 像 仅 显示 灰 度 变化 比较 陡 的 边缘 轮廓 ， 而 灰 度 变化 平缓 的 区 域 
则 旦 黑色 。 
第 二 种 方法 是 令 
gli wo |， I |=7 (2.59) 
式 中 , 7 是 一 个 非 负 的 阅 值 。 适 当选 取 7， 可 以 有 效 地 增强 边缘 或 轮廓 ， 而 不 影响 原 灰 度 变化 比 
较 平缓 的 背景 。 
第 三 种 方法 是 令 
Ze， |G[f(i,7)) 1|=7 
RS 其 他 








式 中 , 了 是 根据 需要 指定 的 一 个 灰 度 级 。 适 当选 取 了， 可 以 使 边缘 或 轮廓 清晰 ， 同 时 又 不 影响 原 
灰 度 变化 比较 平缓 区 域 的 特性 。 
第 四 种 方法 是 令 








” [GIf(i,))]|, |G[If(i,)) |=7 


g(i,)) = 其 他 


(2-61) 
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为 

















(OE 


此 法 将 背景 用 一 个 固定 灰 度 级 Ze 来 显示 ， 便 于 研究 边缘 灰 度 的 变化 。 
第 五 种 方法 是 令 


像 与 视频 处 理 











0 旨 他 


此 法 根据 闪 值 了 将 图 像 分 成 背景 和 边缘 ， 背 景 和 边缘 分 别 用 两 个 不 同 的 灰 度 级 来 表示 ， 生 成 的 是 
二 值 图 像 ， 便 于 研究 边缘 所 在 位 置 。 


2.4.2 索 贝尔 (Sobel) 算 子 


采用 梯度 运算 对 图 像 进行 锐 化 处 理 ， 同 时 会 使 噪声 、 条 纹 等 得 到 增强 ，Sobel 算 子 则 在 一 定 
程度 上 克服 了 这 个 问题 。 
以 待 锐 化 图 像 的 任意 像素 (i,j) 为 中 心 ， 取 图 2-34 所 示 的 3 x3 像素 窗口 ， 分 别 计算 窗口 中 
心 像素 在 x 和 7 方向 的 梯度 ; 
C.=[AG+1l,J-1)+21+1,7) +f(i+l1,j+1)] 


(2-62 ) 














(2-63 ) 
-LfCi-1,7-1) +2f(i-1,)) +f(i-1,j+1)] 
G,= [fi-1,j+1) +2f(i,j+1) +f(i+1,7j+1)] jd 
- [fi-1,7-1) +2f(i,j-1) +f(i+t+1,7-1)] 
用 模板 操作 表示 为 
-1 0 1 -1 -2 -1 
-| 0 :| "| 0 0 (2-65) 
-1 0 1 1 2 1 
锐 化 后 的 图 像 在 (i,j) 处 的 灰 度 值 为 
hil1, 六 1) Ail, DD) hl, itl) 
8g(i,]) = VG +C， (2-66) 5 
为 简化 计算 ,可 用 g(i,j) = 1c.| + 16,| 来 代替 TD A A 
式 (2-66) ， 从 而 得 到 锐 化 后 的 图 像 。Sobel 算 子 不 像 0 j 1) i Roe 
Roberts 算 子 那样 用 两 个 像素 的 差 值 ， 所 以 具有 以 下 a an » 




















两 个 优点 。 图 2-34 Sobel 算 子 所 用 的 3 x3 像素 窗口 
1) 由 于 引入 了 平均 因素 ， 因 而 对 图 像 中 的 随机 噪声 有 一 定 的 平滑 作用 。 
2) 由 于 它 是 相隔 两 行 或 两 列 之 差分 ， 故 边缘 两 侧 元 素 得 到 了 增强 ， 边 缘 显 得 粗 而 亮 。 











Ee i 
a) 原始 图 像 b) Sobel 算 子 运 算 效果 c) Roberts 算 子 运算 效果 
图 2-35 ”Sobel 算 子 与 Roberts 算 子 的 锐 化 效果 比较 














2.4.3 拉 普 拉 斯 (Laplacian) 算 子 
拉 普 拉 斯 算 子 是 常用 的 边缘 增强 算 子 ， 拉 普 拉 斯 运算 是 二 阶 偏 导数 运算 的 线性 组 合 运 算 ， 而 
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TO] 


且 是 一 种 各 向 同性 〈 旋 转 不 变性 ) 的 线性 运算 。 一 个 连续 的 二 元 函数 /(x,，y)， 它 在 点 (x, y) 处 
的 拉 普 拉 斯 运算 ( 算 子 ) 定义 为 


为 



































Vif = oF,)) 10f(%,)) (2-67) 
Ox Oy 
对 数字 图 像 来 讲 ，f(i,j) 的 二 阶 偏 导数 可 近似 表示 为 





























DF Vt,) -VA 
SAG -A A 1) EY 
el 
2 yf Vf 
“ (2-69) 
= LA) -fi I- LD -Ai,j-l)] 
=fij+1) HR-D -2f(i,)) 
故 拉 普 拉 斯 算 子 为 
ve 
Ox 9y (2-70) 
ft) AED At) +Aij-1) -4 
式 (2-70) 也 可 由 拉 普 拉 斯 算 子 模板 来 表示 : 
0 1 0 
|! —4 1 (2-71) 
0 1 0 





实际 中 常用 的 拉 普 拉 斯 算 子 模板 还 有 


1 1 1 1 -2 1 
|! -8 中 = 二 
1 1 1 1 -2 1 


图 2- 36 依次 给 出 了 
Lean 图 像 的 原 图 像 以 及 利 
用 上 述 5 个 拉 普 拉 斯 算 子 
有 H, ~ H; 对 Lean 图 像 进 行 锐 
化 的 结果 。 

由 图 2- 36 可 知 ， 直 接 
利用 拉 普 拉 斯 算 子 锐 化 后 的 
图 像 虽 然 边缘 增强 了 ， 但 图 
像 中 的 背景 信息 却 消 失 了 。 
为 了 既 体 现 拉 普 拉 斯 算 子 的 
锐 化 效果 ， 同 时 又 能 保持 原 
图 像 的 背景 信息 ， 通 常 将 原 
始 图 像 与 用 拉 普 拉 斯 算 子 锐 EE 
化 后 的 结果 闪 加 在 一 起 ， 作 6 用 gy, 锐 化 的 效果 
为 锐 化 增强 的 图 像 。 

如 果 图 像 的 模糊 是 由 

































































e) 用 HH4 锐 化 的 效果 f) 用 HH; 锐 化 的 效 

















图 2-36 ” 拉 普 拉 斯 算 子 对 Lean 图 像 进行 锐 化 的 效果 
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四 ) 数字 图 像 与 视频 处 理 


扩散 现象 引起 的 〈 如 胶片 颗粒 化 学 扩散 等 ) ， 则 锐 化 后 的 图 像 g(i,]) 为 
8(i,7) =f(i,)) 一 EVA (2-72) 
式 中 , f(i,7)、g(i,]) 分 别 为 锐 化 前 、 后 的 图 像 ;% 为 与 扩散 效应 有 关 的 系数 。% 的 选择 要 合理 ， 
上 太 大 会 使 图 像 中 的 轮廓 边缘 产生 过 冲 , 太 小 ， 则 锐 化 不 明显 。 
当 大 =1 时 ， 拉 普 拉 斯 锐 化 后 的 图 像 为 
8(i,)) =f(i,)) -Vf 



































=5f(i,7) =fitl,)) -fi-1,)) -fi,j+1) -/(i,j-1) 0 
式 (2-73) 也 可 用 模板 表示 为 
0 -1 0 
| 5 -| (2-74) 
0 -1 0 


同 理 ， 也 有 其 他 的 模板 ， 如 
-1] -1l 
H, = -1 9 
-1] -1l 
上 述 的 五, ~ H, 称 为 合成 
拉 普 拉 斯 模板 。 图 2-37 依次 给 
出 了 Lean 图 像 的 原 图 像 以 及 利 
用 合成 拉 普 拉 斯 模板 及 .和 H， 
对 Lean 图 像 进行 锐 化 的 结果 。 
同 梯度 算 子 进行 锐 化 一 
样 ， 拉 普 拉 斯 算 子 也 增强 了 A 
图 像 的 噪声 ， 但 与 梯度 法 相 A A 
比 ， 拉 普 拉 斯 算 子 对 噪声 的 到 2-37 用 合成 拉 普 拉 斯 模板 对 Lean 图 像 进行 锐 化 的 效果 
作用 较 梯 度 法 弱 。 故 用 拉 普 
拉 斯 算 子 进行 边缘 检测 时 ， 有 必要 先 对 图 像 进行 平滑 处 理 。 
2.4.4 ”频率 域 高 遂 滤波 
由 于 图 像 中 的 边缘 、 线 条 等 细节 部 分 在 频率 域 中 对 应 于 高 频 分 量 ， 所 以 采用 高 通 滤波 技术 ， 
让 高 频 分 量 顺 利通 过 ， 使 低频 分 量 受到 抑制 ， 就 能 够 得 到 图 像 的 边缘 信息 ， 再 将 该 高 频 的 图 像 边 
缘 附加 到 原 图 像 中 ， 就 能 够 实现 图 像 的 锐 化 ， 从 而 使 图 像 的 边缘 或 线条 变 得 清晰 。 
与 频率 域 低 通 滤波 器 相对 应 ， 常 用 的 高 通 滤波 器 有 : 理想 高 通 滤波 器 、 巴 特 沃 效 (Butter- 
worth) 高 通 滤波 器 、 高 斯 高 通 滤波 器 、 梯 形 高 通 滤波 器 等 。 
1. 理想 高 通 滤波 器 
一 个 理想 的 二 维 高 通 滤波 器 的 传递 函数 (u,v) 为 
1, D(u,v) >D, 













































































H(u,v) = (2-75) 
0, D(u,v)<D, 
式 中 ，D, 是 从 频率 平面 原点 (0, 0) 算 起 的 截止 频率 (或 距离 )，D (u,v) 为 频率 平面 上 的 点 
(u,v) 到 频率 平面 原点 (0, 0) 的 距离 ， 即 
D(u,v) = Vi tv (2-76) 





理想 高 通 滤波 带 传 递 函 数 的 透视 图 、 俯 视图 及 径 向 剖面 图 如 图 2-38 所 示 。 该 透视 图 的 含义 
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TO] 


是 : 只 有 那些 位 于 该 圆柱 体外 的 频率 分 量 才能 无 损 地 通过 该 滤波 器 ， 而 位 于 圆柱 体内 的 频率 分 
量 都 将 被 滤 除 掉 ， 这 与 理想 低 通 滤波 器 的 特性 刚好 相反 。 与 理想 低 通 滤波 器 一 样 ， 理 想 高 通 滤波 
器 尽管 可 以 用 计算 机 模拟 实现 ， 但 却 不 能 用 实际 的 电子 元 器 件 来 实现 瓦 (v，2") 从 0 到 1 陡峭 的 
突变 ， 所 以 由 它 得 到 的 高 频 图 像 中 也 存在 “ 振 铃 ”现象 。 


为 




















Hlu, oh 


1.0r 
C 和 


i 
> Dlu, v) 
uU 


图 2-38 理想 高 通 滤波 器 的 特性 




















2. 巴特 沃 兹 高 通 滤波 器 
一 个 n 阶 巴 特 沃 兹 高 通 滤波 器 的 传递 隐 数 有 (u,v) 为 
1 
万 
| 


式 中 ，D, 为 截止 频率 ; D(w, v) = Vw +。 在 式 (2-77) 中 是 把 到 (w，v) 下 降 到 原来 值 的 1/2 
时 的 D(w，v) 定义 为 截止 频率 D,。 一 般 情况 下 ， 常 常 采用 把 H(u， 4) 下 降 至 其 最 大 值 的 万 时 





H(u,v) = (2-77) 





1+| 


的 D(u,v) 定义 为 截止 频率 Du， 该 点 也 党 称 为 半 功 率 点 。 这 样 ， 式 (2-77) 可 修改 为 式 (2-78) 
的 形式 ， 即 








H(u,v) = (2-78) 





1 
D, 2n 
1+(Y -1) | | 
式 (2-77) 与 式 (2-78) 的 区 别 在 于 截止 频率 D, 的 定义 不 同 , HH (u, v) 具有 不 同 的 衰减 特 
性 ， 可 视 需 要 来 确定 。 
巴特 沃 兹 高 通 滤波 器 传递 函数 (n=1) 的 透视 图 、 俯 视图 及 径 向 剖面 图 如 图 2-39 所 示 。 该 
透视 图 的 含义 是 : 只 有 那些 位 于 该 倒立 型 草帽 体外 的 频率 范围 的 信号 才能 通过 ， 而 位 于 倒立 型 
草帽 体 内 的 频率 成 分 都 将 被 衰减 。 与 巴特 沃 斯 低 通 滤波 器 一 样 ， 巴 特 沃 斯 高 通 滤波 器 在 高 低频 
率 间 的 过 渡 比 较 平滑 。 
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2-39 巴特 话 效 高 通 滤波 器 的 特性 
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3. 高 斯 高 通 滤波 器 
一 个 截止 频率 为 D, 的 高 斯 高 通 滤 波 器 的 传递 函数 定义 为 


H(u,v) =1-e ™ (2-79) 
其 中 ,，D(u, v) 为 频率 平面 上 的 点 (u,v) 到 频率 平面 原点 (0, 0) 的 距离 。 
高 斯 高 通 滤波 器 传递 函数 (n =1) 的 透视 图 、 俯 视图 及 径 向 剖面 图 如 图 2-40 所 示 。 该 透视 
图 的 含义 是 : 只 有 那些 位 于 该 倒立 型 草帽 体外 的 频率 范围 的 信号 才能 通过 ， 而 位 于 倒立 草帽 形 
体内 的 频率 成 分 都 将 被 衰减 。 
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图 2-40 高 斯 高 通 滤波 器 的 特性 


经 过 高 斯 高 通 滤波 带 滤 波 的 效果 如 图 2-41 所 示 。 可 以 看 出 ， 随 着 D, 值 的 增 大 ， 增 强 效 果 更 
加 明显 ， 即 使 对 于 微小 的 物体 和 细 线 条 ， 用 高 斯 高 通 滤波 后 也 比较 清晰 。 























b) Do=30 的 高 斯 高 通 滤波 效果 c) Do=60 的 高 斯 高 通 滤波 效果 














图 2-41 高 斯 高 通 滤波 的 效果 




















4. 梯形 高 通 滤波 器 
梯形 高 通 滤波 器 的 传递 本 数 定义 为 


0 ， D(u,v) <D, 
D(u,v) -万 
H(u,v) = D,<D(u,v) <D, (2-80) 
0 下 
1， D(u,v) >D, 


式 中 , D(w,v) = Vw + Di 为 H(u,v) =0 时 的 频率 点 ,频率 低 于 DD, 的 频率 分 量 全 部 衰减 ;，D。 
仍 定义 为 截止 频率 ， 通 常 为 了 实现 方便 ， 并 不 是 把 瓦 (zz) 下 降 至 其 最 大 值 的 三 时 的 DCw，) 定 
为 截止 频率 D, ， 只 要 满足 D, > D, 即 可 。 
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梯形 高 通 滤波 器 的 滤波 性 能 也 介 于 理想 高 通 滤 波 器 和 具有 平滑 过 湾 的 滤波 器 之 间 ， 滤 波 后 
的 图 像 既 有 一 定 的 模糊 ， 也 有 一 定 振 铃 现象 存在 。 


2.5 图 像 的 同 态 滤波 


从 图 像 的 形成 和 光 特 性 考虑 ， 一 幅 图 像 是 由 光源 的 照度 分 量 i(x，y) 和 目标 物 的 反射 分 

量 r(x, y) 组 成 的 ， 其 数学 模型 为 

fx,y) =i(x,y) + r(x,y) (2-81) 
理想 情况 下 ， 照 度 分 量 ix*，7y) 应 是 常数 ， 这 时 /f(x,y) 可 以 不 失真 地 反映 r(x，y)。 然 而 
在 实际 中 ， 由 于 光照 不 均匀 ,i(x,，y) 并 非常 数 。 同 时 ， 由 于 成 像 系统 的 不 完善 ， 也 会 引起 类 似 
于 光照 不 均匀 的 效果 。 两 者 都 会 引起 i(x，y) 的 变化 ， 那 么 对 应 照度 较 强 的 部 分 ， 图 像 就 较 亮 ; 
对 应 照度 较 弱 的 部 分 ， 图 像 就 较 暗 ， 结 果 造 成 图 像 凡 xzx，7y) 中 出 现 大 面积 阴影 ， 而 掩盖 一 些 目标 物 
细节 ， 使 图 像 不 清晰 。 因 此 ， 必 须 想 办 法 减弱 i(x，y) 而 增强 r(x，y)。 

一 般 来 说 ，i(x*,y) 是 缓慢 变化 ， 其 频谱 落 在 低频 区 域 ; 而 r(x, y) 反映 目标 物 的 内 容 细 
节 ， 其 频谱 有 相当 部 分 落 在 高 频 部 分 。 为 此 ， 只 要 我 们 能 从 /f(x,y) 中 把 i(x, y) 和 r(x, y) 分 
开 ， 并 分 别 采 取 压 缩 低频 、 提 升 高 频 的 方法 ， 就 可 达到 减弱 照度 分 量 、 增 强 反射 分 量 从 而 使 图 像 
清晰 的 目的 。 

对 式 (2-81) 两 边 取 对 数 ， 以 便 将 乘法 运算 的 组 合 转换 为 加 法 运算 的 组 合 ， 即 


六 













































































lnf(x,y) =lni(x,y) + lnr(x,y) (2-82) 
对 式 (2-82) 进行 傅 里 叶 变换 ， 得 
FLAx,y)]=FLn(xzy)]+RLnrGz,y)] (2-83 ) 


式 (2-83) 简 记 为 

F(u,v) =I(u,v) + R(u,v) (2-84) |Hu,»)| 

为 了 消除 照度 不 均 的 影响 ， 应 衰减 Hy 
1(wu, v) 频率 分 量 ; 为 了 显现 景物 细节 ， 

提高 对 比 度 ,， 增强 反射 光 ， 则 应 提升 1 

R(wu, v) 频率 分 量 。 为 此 同 态 滤波 右 传 递 











函数 (u,v) 的 齐 面 图 应 具有 图 2- 和 2 所 
示 的 形状 。H, <1 和 五, > 1 意味 着 抑制 低 0 ”照度 分 量 。” Do。 ”反射 分 量 Dus) 
频 分 量 ( 照度 分 量 ) 和 增强 高 频 分 量 ( 反 图 2-42” 同 态 滤 波 器 传递 函数 的 剖面 图 
射 分 量 ) 。 
滤波 器 的 输出 为 
S(u,v) =H(u,v )F(u,v) =H(u,v) I(u,v) +H(u,v)R(u,v) (2-85) 
对 式 (2-85) 进行 傅 里 叶 反 变换 ， 得 
s(x,y) =F [SCGu,v0)] =F (Hu,v) Tu,v) |] +F [Hu,v)R(u,v) |] (2-86) 
最 后 ， 做 exp 指数 运算 ,得 到 同 态 滤波 器 的 输出 
g(x%,y) =expl s(x,y) |] (2-87) 








综 上 所 述 ， 同 态 滤波 的 基本 原理 是 先 对 待 增强 的 图 像 取 对 数 ， 然 后 进行 傅 里 叶 变 换 ， 在 频率 域 
中 进行 适当 的 滤波 ， 最 后 通过 反 傅 里 叶 变 换 及 指数 变换 得 到 增强 的 图 像 ， 其 原理 框图 如 图 2-43 
所 示 。 

图 2-44 是 同 态 滤波 增强 图 像 的 例子 。 左 边 的 图 中 因 照 度 不 均匀 ， 瞳 区 细节 不 太 清 楚 ; 右边 
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的 图 是 经 同 态 滤波 处 理 后 的 图 像 。 可 以 看 出 ,右边 的 图 的 局 部 动态 范围 变 大 了 ， 对 比 度 获得 
增强 。 





on 上 四 
图 








a) 原 图 b) 同 态 滤波 效果 
图 2-44 图像 同 态 滤波 增强 的 效果 





2.6 基于 Retinex 理论 的 图 像 增 强 








Retinex 由 Retina (视网膜 ) 和 Cortex (皮层 ) 两 个 单词 合成 形成 ， 因 此 ， 有 文献 也 将 Ret- 
inex 理论 称 为 视网膜 皮层 理论 。 

最 初 的 基于 Retinex 理论 的 模型 采用 人 眼 视觉 系统 (HVS) 来 解释 人 有 眼 对 光线 波长 和 亮度 互 
不 对 应 的 原因 。 在 此 理论 中 ， 由 两 个 因素 来 决定 物体 能 够 被 观察 到 的 颜色 信息 ， 分 别 为 : 物体 本 
身 的 反射 性 质 和 物体 周围 的 光照 强度 。 另 一 方面 ， 根 据 颜色 恒 常 性 理论 ， 物 体 有 自身 的 固有 属 
性 ， 它 不 会 受到 光照 影响 ， 一 个 物体 对 于 不 同 光 波 的 反射 能 力 才能 够 决定 物体 的 颜色 。Retinex 
理论 的 基本 思想 就 是 光照 强度 决定 了 原始 图 像 中 所 有 像素 点 的 动态 范围 大 小 ， 而 原始 图 像 的 固 
有 属性 则 是 由 物体 自身 的 反射 系数 决定 ， 即 假设 反射 图 像 和 光照 图 像 相 乘 为 原始 图 像 。 所 以 ， 
Retinex 理论 的 思想 为 去 除 光 照 的 影响 ， 保 留 物 体 的 固有 属性 。 

假设 观察 者 得 到 的 图 像 为 Kx，y) ， 根 据 上 述 理论 ， 它 可 以 表示 为 

Tx,y) =L(%x,y)R(x,Y) (2-88) 

式 中 , L(x, y) 表示 周围 光照 强度 信息 的 照度 分 量 ; R(x,y) 表示 物体 本 身 固 有 性 质 的 反射 
分 量 。 

对 式 (2-88) 两 边 取 对 数 ， 得 



























































lIn(T(x,y)) =Jn(ZCx,y)RxyY) ) =In(L(%,y)) +ln( R(x,y)) (2-89) 
令 ix,y) =In(T(x,y)), L(x,y) =In(L(x,y)), r(x,y) =In(R(x,y) )， 那么 
i(x,y) =l(x,y) +r(%,y) (2-90) 





取 对 数 运算 的 两 大 好 处 : 首先 因为 人 眼 对 亮度 的 感知 能 力 不 是 线性 的 ， 它 近似 于 对 数 曲 线 ， 
其 次 是 复杂 的 乘除 在 对 数 域 中 是 简单 的 加 减法 ， 这 些 可 以 大 幅度 降低 算法 的 复杂 度 。 

传统 的 基于 Retinex 理论 的 增强 算法 主要 先 对 网 像 的 各 个 通道 进行 光照 分 量 估 计 ， 然 后 提取 
出 反射 分 量 ， 将 光照 分 量 直 接 去 除 ， 只 保留 反映 物体 细节 信息 的 反射 分 量 作为 最 后 的 增强 图 像 。 
其 处 理 流程 框图 如 图 2-45 所 示 。 

可 以 看 出 ，Retinex 增强 和 同 态 滤 波 增强 类 似 ， 都 是 将 一 幅 图 像 分 解 为 光照 分 量 和 反射 分 量 ， 
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TO] 


Tx,y) 光照 分 量 估计 Lx») 取 对 笋 运算 Let) 一 r(x,)) 取 指数 运算 R(x,)) 
取 对 数 运 算 ic 
卫 


图 2-45 ”基于 Retinex 理论 的 图 像 增 强 流程 框图 


都 有 对 数 处 理 操 作 ， 但 前 者 在 空间 域 中 处 理 分 量 ， 后 者 在 频率 域 中 进行 。 基 于 Retinex 模型 产生 
了 诸多 增强 算法 ， 这 其 中 ， 基 于 中 心 环绕 的 Retinex 增强 算法 最 为 常用 。 根 据 对 光照 分 量 不 同 的 
估计 算法 ， 又 可 以 将 其 进一步 分 为 : 单 尺 度 Retinex (Single Scale Retinex，SSR) 、 多 尺度 Retinex 
( Multi- Scale Retinex，MSR) 以 及 带 颜 色 恢 复 的 多 尺度 Retinex (Multi-Scale Retinex with Color Res- 
toration ，MSRCR) 等 。 

单 尺 度 Retinex 算法 的 运算 过 程 模拟 人 类 视觉 成 像 过 程 的 特点 ， 利 用 高 斯 环绕 函数 对 图 像 的 
每 个 色彩 通道 进行 卷 积 滤波 操作 ， 将 滤波 后 的 图 像 作为 图 像 的 光照 分 量 ， 然 后 利用 对 数 变换 将 
图 像 与 光照 分 量 相 减 求 得 反射 分 量 作为 最 后 的 输出 图 像 ， 实 现 图 像 动 态 范围 压缩 、 颜 色 恒 定 以 
及 细节 增强 。 数 学 表达 式 为 

(%,y) 


ri(%,y) =ln(R(x,y)) =In 全 亲 ] -mite) -ln(L(x,y) * G(x,y)) (2-91) 


式 中 ,7(x,，y) 为 输入 图 像 ， R(x，y) 为 反射 分 量 ; L(x，y) 为 光照 分 量 ; 7, 表示 第 i 个 色彩 通 
道 的 反射 图 像 ，* 表示 卷 积 ; G(x，y) 为 高 斯 环绕 函数 ， 其 表达 式 为 


G(x,y) = ae 从 (2-92) 


式 中 ，cr 被 称 为 高 斯 环绕 的 尺度 参数 ， 它 是 整个 算法 中 的 唯一 可 调节 的 参数 ， 所 以 它 可 以 非常 容 
易 地 影响 到 图 像 增强 的 最 终结 果 。 当 o 较 小 时 ， 表 示 高 斯 模板 尺度 较 小 ， 估 计 的 光照 信息 是 图 
像 局 部 的 ， 所 以 细节 增强 效果 比较 明显 ， 但 颜色 失真 严重 ; 当 o 值 较 大 时 ， 表示 高 斯 模板 尺度 
较 大 ， 兼 顾 了 图 像 的 整体 特性 ， 增 强 图 像 色彩 保 真 度 高 ， 整 体 较 为 自然 ， 但 细节 增强 一 般 。 

由 于 单 尺 度 算法 很 难 同时 实现 颜色 保 真 与 有 效 的 细节 增强 ，Jobson 等 人 提出 了 多 尺度 的 Retinex 
算法 (MSR)， 该 算法 先 利用 多 个 不 同 尺度 对 图 像 进行 处 理 ， 即 执行 不 同 尺度 的 SSR 算法 ， 再 对 各 
个 处 理 结果 进行 加 权 组 合 ， 使 得 加 权 结 果 同 时 具备 了 SSR 算法 的 高 、 中 、 低 三 个 尺度 的 特点 。 
数学 表达 式 为 


为 































































































































































































ri(x,y) = > w, (In(T(x,y)) -In(J,(x,y) * G(x,y))) (2-93) 


kel 


式 中 ,N 是 尺度 参数 的 总 个 数 ， 如 果 N 为 1， 则 就 是 前 面 介绍 的 单 太 度 的 Retinex 算法 。 实 验 表 
明 ， 当 NN 取 3， 即 使 用 三 个 不 同 尺度 的 高 斯 滤波 絮 对 原始 图 像 进 行 滤波 处 理 时 ， 加 权 处 理 后 的 增 
强 效果 最 佳 。w' 是 第 个 尺度 在 进行 加 权时 的 权重 系数 ， 满 足 如 下 的 约束 关系 : 


Do =1 (2-94) 
经 过 实验 发 现 ， 当 w, =1/N 时 ， 能 适用 于 大 量 的 低 照度 图 像 ， 且 运算 简单 。G, (x,，y) 是 在 第 
个 尺度 上 的 高 斯 滤波 函数 。 
由 于 MSR 算法 是 分 别 对 RGB 色彩 通道 进行 增强 ， 所 以 无 法 保证 最 后 的 增强 图 像 各 个 像素 点 
RGB 的 比值 和 输入 图 像 一 致 ， 从 而 导致 增强 图 像 相 对 于 原始 图 像 产生 一 定 的 色彩 失真 。 为 解决 
这 一 问题 ，Rahman 等 人 提出 了 具有 色彩 恢复 的 多 尺度 Retinex 算法 ( MSRCR)， 该 算法 引入 色彩 
恢复 因子 C 对 颜色 进行 矫正 ， 其 表达 式 为 
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i(%,y) = 3 
> Ls) 


式 中 ，C(*，y) 是 第 i 个 通道 的 色彩 恢复 系数 ，1,(x,，y) 表示 输入 图 像 在 第 i 个 色彩 通道 的 分 
布 ; f 是 变换 函数 ， 通 常 为 线性 函数 或 者 对 数 函 数 。 结 合式 (2-93)， 可 以 得 到 MSRCR 的 数学 表 
达 式 为 








n(x) = Co ln(T(xsy)) ~ In(h(s,y) * G(x,y))) (2-96) 


图 2-46 所 示 为 SSR (o 为 80)、MSR 以 及 MSRCR (o 分 别 为 30、80、200) 三 种 算法 的 图 像 
增强 效果 。 





a) 原 图 b) SSR 





c) MSR d) MSRCR 








图 2-46 SSR、MSR、MSRCR 三 种 算法 的 图 像 增强 效果 比较 











2.7 彩色 增强 


对 于 灰 度 图 像 ， 人 了 眼 能 分 辨 的 灰 度 级 只 有 十 几 级 到 二 十 几 级 ， 而 对 彩色 图 像 却 可 以 分 辨 出 
上 千 种 颜色 。 例 如 当 彩 色 电 视 从 彩色 显示 调 到 黑白 显示 时 ， 原 来 能 看 到 的 一 些 画 面 细 节 就 看 不 
出 来 了 。 因 此 利用 人 有 眼 的 这 一 视觉 特性 ， 将 灰 度 图 像 变 成 彩色 图 像 ， 或 者 改变 已 有 的 彩色 分 布 ， 
无 疑 都 会 改善 图 像 的 可 视 性 ， 将 颜色 信息 用 于 图 像 增强 之 中 ， 提 高 图 像 的 可 分 辨 性 ， 这 就 是 彩色 
增强 。 常 用 的 彩色 增强 方法 可 以 分 为 伪 彩 色 增 强 和 假 彩 色 增强 。 


2.7.1 伪 彩 色 增 强 
伪 彩 色 ( Pseudo color) 增强 是 针对 灰 度 图 像 提 出 的 ， 甚 目的 是 把 离散 灰 度 图 像 的 不 同 灰 度 
级 按照 线性 或 者 非 线性 关系 映射 成 不 同 的 颜色 ， 得 到 一 幅 彩 色 图 像 ， 以 改善 图 像 的 视觉 效果 ， 提 


高 图 像 内 容 的 可 辨识 度 ， 使 得 图 像 的 细节 更 加 突出 ， 目 标 更 容易 识别 。 伪 彩色 增强 技术 已 广泛 应 
用 于 航 摄 和 遥感 图 片 、X 光 图 片 及 气象 云图 判读 等 方面 。 
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图 像 的 伪 彩 色 增 强 可 在 空间 域内 实现 ， 也 可 在 频率 域内 实现 。 伪 彩色 增强 的 方法 主要 有 以 


下 三 种 
1. 灰 度 分 层 法 


对 一 幅 灰 度 图 像 /(x，y) ， 在 某 一 个 灰 度 级 (如 /f(x,y) =41) 上 设置 一 个 平行 于 wy 平面 的 
切割 平面 ， 将 这 幅 灰 度 图 像 切割 成 只 有 两 个 灰 度 级 ， 对 切割 平面 以 下 的 〈 即 灰 度 级 小 于 九 ) 像 
素 分 配 一 种 颜色 〈 如 蓝 色 ) ， 对 切割 平面 以 上 的 像素 分 配 另 一 种 颜色 (如 红色 ) ， 如 图 2-47 所 
示 。 这 样 切 割 的 结果 就 可 以 将 灰 度 图 像 变 为 只 有 两 个 颜色 的 伪 彩 色 图 像 。 

若 将 灰 度 图 像 用 W 个 切割 平面 去 切割 ， 就 会 得 到 M+1 个 不 同 灰 度 级 的 区 域 8 ，S ，…，S，， 
S，， 。 对 这 M+1 个 区 域 中 的 像素 人 为 分 配 M+1 种 不 同 颜色 ， 就 可 以 得 到 具有 M+1 种 颜色 的 
伪 彩 色 图 像 ， 如 图 2-48 所 示 。 该 方法 的 优点 是 简单 易 行 ， 便 于 用 软件 或 硬件 实现 ， 并 且 可 以 扩 
天 用 途 ， 如 计算 图 像 中 革 灰 度 级 的 面积 等 。 但 此 方法 的 缺点 是 : 产生 的 伪 彩 色 图 像 的 视觉 效果 不 






































理想 ， 伪 困 乡 色 生 人 硬 且 不 够 调和 ， 可 形成 的 彩色 数目 不 多 。 


Jf)) 


彩色 
CM+1 


切割 平面 0 



























































图 2-47 灰 度 分 层 的 切割 示意 几 


2. 灰 度 级 彩色 变换 
根据 彩色 的 三 基色 原理 ， 可 将 灰 度 映 射 成 红 (R) 、 





D1 UW 灰 度 级 
图 2-48 ”多 灰 度 分 层 的 切割 示意 图 


绿 (G)、 蓝 (B) 3 个 基色 ， 再 合成 彩 





色 ， 其 原理 如 图 2.494 所 示 ， 先 将 大 度 图 像 K(x，;) 输入 具有 不 疝 变换 特性 的 红 变 铁器 、 绿 变换 


器 和 蓝 变 换 器 ， 输 出 3 个 基色 分 量 L(x, y)、16(x,y) 








和 7 了 ,(x,，y) ， 然 后 通过 合成 ， 得 到 其 颜 





色 由 3 个 变换 函数 调制 的 与 x， y) 幅度 相对 应 的 彩色 图 像 。 这 里 受 调制 的 是 像素 的 灰 度 值 而 不 
是 像素 的 位 置 。 对 于 某 一 个 灰 度 级 而 言 ， 由 于 3 个 变换 器 对 其 实施 不 同 的 变换 ， 因 而 3 个 变换 顺 
的 输出 不 同 ， 从 而 在 彩色 显示 融 里 合成 某 一 种 彩色 ; 若 灰 度 图 像 凡 xz，7y) 的 灰 度 级 在 0 ~ 工 之 间 














变化 ,xz，y)、7 COxz，y) 和 万 (x，y) 会 有 不 同 输出 ， 








从 而 合成 不 同 的 彩色 图 像 。 所 以 ， 这 种 




















伪 彩 色 增 强 技术 可 以 将 灰 度 图 像 变 换 为 具有 多 种 颜色 渐变 的 连续 彩色 图 像 。3 个 变换 器 典型 的 变 


换 特 性 如 图 2-49b 所 示 。 
3. 频率 域 滤波 法 








与 前 面 介 绍 的 两 种 在 空间 域 进行 伪 彩 色 增 强 的 方法 不 同 ， 频 率 域 滤波 法 输出 图 像 的 伪 及 
与 灰 度 图 像 的 灰 度 级 无 关 ， 而 是 与 图 像 中 的 不 同 空间 频率 成 分 有 关 。 频 率 域 滤波 法 实现 伪 采 























椒 色 
椒 色 


增强 的 原理 框图 如 图 2-50 所 示 。 首 先 把 灰 度 图 像 经 傅 里 时 ( Fourier) 变换 到 频率 域 获得 频谱 分 
量 ， 将 频谱 分 量 分 别 用 3 个 具有 不 同 传递 特性 的 滤波 器 将 其 分 离 成 3 个 独立 分 量 ， 从 3 个 滤波 器 








输出 的 信号 再 经 过 傅 里 叶 逆 变换 ， 获 得 三 通道 的 空间 域 
图 均衡 化 或 规定 化 ) ， 最 后 把 它们 作为 三 基色 分 别 加 到 条 








图 像 ， 并 对 其 做 进一步 的 处 理 (如 直方 
欧 色 显像管 的 红 、 绿 、 蓝 显示 通道 ， 从 而 
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TB(x, y) To(x,») TR(x,») 








a) b) 
图 2-49 灰 度 级 彩色 变换 原理 

实现 频率 域 的 伪 彩 色 处 理 。 这 种 方法 的 基本 思想 是 根据 图 像 中 各 区 域 的 不 同 频率 分 量 给 区 域 赋 
予 不 同 的 颜色 。 为 得 到 不 同 的 频率 分 量 ， 图 2-50 中 的 3 个 滤波 器 可 分 别 使 用 低 通 、 带 通 (或 带 
阻 ) 和 高 通 滤波 器 。 如 果 和 希望 图 像 的 边缘 (对 应 高 频 成 分 ) 成 为 红色 ， 则 可 以 将 红色 通道 滤波 
兢 设 计 成 高 通 滤波 器 。 如 果 希 望 抑 制图 像 中 的 某 种 频率 成 分 ， 则 可 以 把 此 上 段 频 率 的 滤波 器 设计 
成 带 阻 滤波 器 。 而 且 可 以 在 附加 处 理 中 结合 其 他 处 理 方法 (如 直方 图 修正 等 ) ， 使 其 彩色 对 比 度 
更 强 ， 有 利于 边界 的 视觉 检测 。 


红色 通道 洪波 器 
获 色 通道 江波 加 
绿色 通道 滤波 器 


图 2-50 ”频率 域 滤波 法 实现 伪 彩 色 增 强 的 原理 框图 



































































2.7.2 假 彩色 增强 


假 彩色 ( False color) 增强 是 从 彩色 到 彩色 的 映射 ， 是 将 一 幅 真实 的 自然 彩色 图 像 或 遥感 多 
光谱 图 像 ， 逐 点 映射 到 三 基色 所 确定 的 三 维 色 度 空间 。 而 在 重新 显示 的 图 像 中 ， 各 种 目标 物 的 呈 
现 不 同 于 原始 自然 本 色 ， 故 称 为 假 彩色 。 

假 彩 色 增强 有 以 下 主要 目的 。 

1) 经 过 假 彩 色 变 换 ， 会 比 原来 的 自然 色彩 更 引 人 注 目 。 

2) 根据 人 眼 的 生理 特点 ， 可 将 感 兴趣 而 又 不 易 分 辨 的 细节 赋予 人 眼 较 敏感 的 颜色 。 例 如 ， 
人 眼 对 绿色 特别 灵敏 ， 因 此 可 把 其 他 颜色 的 感 兴趣 细小 目标 赋予 绿色 就 更 容易 分 辨 出 来 ; 人 有 眼 
对 蓝 色 变化 的 对 比 灵 人 敏 度 较 高 ， 因 此 可 把 细节 较 丰 富 的 目标 赋予 深浅 不 一 的 蓝 色 ， 就 可 改善 细 
节 的 可 检测 性 。 

3) 将 多 光谱 图 像 合成 彩色 图 像 ， 不 仅 看 起 来 自然 、 逼 真 ， 而 且 可 通过 与 其 他 波段 的 综合 获 
得 更 多 的 信息 ， 便 于 区 分 某 些 特征 。 

对 于 自然 图 像 的 假 彩 色 增 强 ， 一 般 采 用 如 下 的 映射 关系 : 


0 ci 全 
a, b, ec: 大 (2-97) 
as by cs B 



























































74 | 第 2 章 





©) 


式 中 ,fi、f、f 分 别 为 原始 图 像 某 像素 点 的 三 基色 亮度 ; g,、g。、gj 分 别 为 处 理 后 图 像 中 对 应 
像素 点 的 三 基色 亮度 。 
对 于 多 光谱 图 像 的 假 彩 色 增 强 ， 采 用 如 下 的 变换 函数 : 
gr = Trlfi, fo,**, f,] 
gc=Telfi, fo,**, f,] (2-98) 
ga = Tslfi, fo,**, f,] 
式 中 , 上 户 ，…,， 分别 表示 在 光谱 的 nn 个 不 同 波段 获得 的 n 幅 图 像 ，g,、g。、gs 分 别 表示 假 
彩色 图 像 的 三 基色 亮度 ; Ti[ ]、7T,[… ]、7T,[…] 为 变换 函数 。 


六 




















2.8 MATLAB 编程 实例 





【 例 2-4】 请 编写 MATLAB 程序 ， 实 现 对 pout 图 像 进行 灰 度 线性 变换 ， 将 图 像 灰 度 值 从 0.3 x 
255 ~0.7 x255 之 间 映 射 到 0 ~255 之 间 。 
解 . MATLAB 代码 如 下 : 


























clear all 

1 = imread( 'pout. tif' ) ; % 读 人 原 图 像 

imshow(1); % 显示 原 图 像 

figure ,imhist(I) ; % 显示 原 图 像 的 直方 图 

J1 =imadjust(I,[0.3, 0.7],[ ]); % 葡 数 将 图 像 在 0.3 x255 ~0.7 x255 灰 度 之 间 的 值 通 



































% 过 线性 变换 映射 到 0 ~ 255 之 间 
figure ,imshow( J1 ); % 输 出 图 像 效 果 图 
figure,imhist( J1); 和 % 输出 图 像 的 直方 图 


























【 例 2-5】 请 编写 MATLAB 程序 ， 通 过 直方 图 均衡 化 对 图 像 进 行 增强 。 
解 : MATLAB 代码 如 下 。 




































































clear all 

A =imread( 'pl. jpg' ); 

I=histeq(A) ; % 调 用 函数 完成 直方 图 均衡 化 
subplot(1,2,1) ,imshow( A); % 直方 图 均衡 化 前 的 图 像 效 果 
subplot(1,2,2) ,imshow(1); % 直方 图 均衡 化 后 的 图 像 效 果 
figure,subplot(1,2,1) ,imhist(A) ; % 均衡 化 前 的 直方 图 
subplot(1,2,2) ,imhist(I) ; % 均衡 化 后 的 直方 图 





























【 例 2-6】 请 编写 MATLAB 程序 ， 分 别 采 用 3 种 模板 对 含 噪 图 像 进行 平滑 处 理 。 
解 : MATLAB 代码 如 下 。 
clear all 
IL = imread( 'blood1. tif' ) ; 
I= imnoise(Il , "salt & pepper' ) ; % 对 图 像 加 椒盐 噪声 
imshow(I) ; 
hl= [0.10.10.1;0.10.20.1;0.10.10.1]; 和 定义 3 种 模板 
h2 =1/16. * [121;242;121]; 
ha =1/8.*[111;101;111]; 
12 =filter2 (hl ,1); % 用 3 种 模板 进行 滤波 处 理 
13 =filter2 (bh2,1); 
14 =filter? (h3,1); 
figure,imshow( 2,[ ]); % 显示 处 理 结 
figure,imshow(B,[ ]); 
figure,imshow(14,[ ]); 
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【 例 2-7】 请 编写 MATLAB 程序 ， 对 图 像 进行 同 态 滤波 。 
解 : MATLAB 代码 如 下 。 
clear all 
% 读 入 图 像 
I = imread( 'cameraman. tif' ) ; 
subplot(1,2,1); 
figure(1) ;imshow(1) ;title( ' 原 始 图 像 ' ); 
I = im2double(1); 
% 求 对 数 
lni = log(I+0.000001 ) ; 
Fi = fftshift(fft2( 1ni)); 
[M,N] = size( Fi); 
% 确定 传 里 叶 变换 的 原点 
xo = floor(MZ2 ) ; 
yo = floor( N/2); 
%% 同 态 滤 波 天 参数 设置 ; 求 H(u,v) 
Hh = 2; 
Hl = 0.5; 
ce = 1.50; 
DO =80; 
fori = 1:M 
for j=1:N 
D= (i-xo)2+(j -yo)2; 
h(i,j) = (Hh -Hl)*(1-exp( ~c*(D/DO02))) + Hl; 














end 
end 
% 滤波 矩阵 点 乘 
Gi = h.* Fi; 
% 傅 里 叶 逆 变 换 
flno = ifftshift(Gi) ; 
go = real(ifftt2(flno) ) ; 
% 求 指数 
go = exp(go) ; 
gxy = im2uint8(go) ; 
subplot(1 ,2 ,2 ) ;imshow( gxy) ;title( ' 同 态 滤波 结果 ' ) ; 
figure(2) ;mesh(h) ;colormap(jet) ;title( ' 同 态 滤波 器 特性 曲线 ' ) ; 























2.9 小 结 








图 像 增强 往往 是 获取 图 像 后 对 图 像 进行 处 理 的 第 一 步 ， 其 目的 是 增强 图 像 中 感 兴趣 的 部 分 
或 突出 有 用 的 图 像 特 征 〈 如 边缘 、 轮 廓 、 对 比 度 等 ) ， 抑 制 不 需要 的 信息 ， 以 改善 图 像 的 主观 视 
觉 效果 或 便于 后 续 的 图 像 分 析 和 识别 。 由 于 图 像 增 强 与 感 兴趣 信息 的 特征 、 观 察 者 的 习惯 和 处 
理 目的 有 关 ， 因 此 ， 图 像 增强 技术 往往 具有 针对 性 ， 增 强 的 结果 多 以 人 的 主观 感觉 加 以 评价 ， 很 
少 涉及 统一 的 客观 评价 准则 ， 很 难 预 测 哪 一 种 特定 技术 是 最 好 的 ， 只 能 通过 试验 和 分 析 误 差 来 
选择 一 种 合适 的 方法 。 在 实际 应 用 中 ， 针 对 某 个 应 用 场合 的 具体 图 像 ， 可 同时 选择 几 种 适当 的 图 
像 增强 算法 进行 实验 ， 从 中 选取 视觉 效果 较 好 、 计 算 复杂 度 相 对 小 的 一 种 算法 。 

图 像 增 强 的 方法 有 很 多 ， 而 且 还 在 不 断 地 发 展 。 本 章 介 绍 的 都 是 一 些 常用 的 基本 方法 。 

基于 空间 域 的 增强 方法 直接 在 二 维 图 像 空 间 进 行 处 理 ， 按 照 所 采用 的 技术 不 同 可 分 为 灰 度 
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变换 和 空间 域 滤波 两 种 方法 。 

灰 度 变换 是 基于 点 运算 的 增强 方法 ， 它 将 每 一 个 像素 的 灰 度 值 按照 一 定 的 数学 变换 公式 转 
换 为 一 个 新 的 灰 度 值 ， 如 增强 处 理 中 常用 的 对 比 度 增 强 、 直 方 图 均衡 化 、 直 方 图 规定 化 等 方法 。 

对 比 度 增强 可 以 采用 灰 度 线性 变换 和 非 线 性 变换 。 线 性 变换 可 以 将 原始 输入 图 像 中 的 灰 度 
值 不 加 区 别 地 扩展 。 在 实际 应 用 中 ,为 了 突出 图 像 中 感 兴趣 的 研究 对 象 ， 常 常 要 求 局 部 扩展 拉 伸 
某 一 范围 的 灰 度 值 ， 或 对 不 同 范 围 的 灰 度 值 进 行 不 同 的 变换 处 理 ， 即 分 段 线性 变换 。 非 线性 变换 
在 整个 灰 度 值 范 围 内 采用 统一 的 非 线 性 变换 函数 ， 利 用 变换 函数 的 数学 性 质 实现 对 不 同 灰 度 值 
区 间 的 扩展 与 压缩 。 

为 了 改变 图 像 整 体 偏 瞳 或 整体 偏 亮 ， 灰 度 层次 不 丰富 的 情况 ， 可 以 将 原 图 像 的 直方 图 通过 
变换 函数 修正 为 均匀 的 直方 图 ， 这 种 技术 叫 直方 图 均衡 化 。 直 方 图 均衡 化 一 般 会 使 原始 图 像 的 
灰 度 等 级 减少 ， 这 是 由 于 均衡 化 过 程 中 要 进行 近似 舍 和 造成 的 。 在 实际 应 用 中 ， 有 时 需要 具有 特 
定 直 方 图 的 图 像 ， 以 便 能 够 有 目的 地 对 图 像 中 的 某 些 灰 度 级 分 布 范 围 内 的 图 像 加 以 增强 ， 此 时 
可 采用 直方 图 规定 化 方法 按照 预先 设 定 的 某 个 形状 来 调整 图 像 的 直方 图 ， 从 而 达到 增强 图 像 效 
果 的 目的 。 

空间 域 滤波 是 基于 邻 域 运算 处 理 的 增强 方法 ， 它 应 用 某 一 模板 对 每 个 像素 及 其 周围 邻 域 的 
所 有 像素 进行 某 种 数学 运算 ， 得 到 该 像素 的 新 的 灰 度 值 ， 输 出 值 的 大 小 不 仅 与 该 像素 的 灰 度 值 
有 关 ， 而 且 还 与 其 邻 域内 的 像素 的 灰 度 值 有 关 ， 常 用 的 图 像 平 滑 与 图 像 锐 化 技术 就 属于 空间 域 
滤波 的 范畴 。 

图 像 平 滑 的 主要 目标 是 在 消除 随机 噪声 的 同时 ， 又 不 使 图 像 的 边缘 轮廓 和 线条 变 模糊 。 图 
像 平 滑 处 理 方法 有 空间 域 法 和 频率 域 法 两 大 类 。 空 间 域 平滑 滤波 需 的 设计 比较 简单 ， 常 用 的 有 
邻 域 平均 法 和 中 值 滤波 法 。 邻 域 平 均 法 是 一 种 直接 在 空间 域 上 进行 平滑 的 技术 。 该 技术 是 基于 
这 样 一 种 假设 : 图 像 由 许多 灰 度 恒定 的 小 块 组 成 ， 相 邻 像素 间 存 在 很 强 的 空间 相关 性 ， 而 噪声 
则 相对 独立 。 因 此 ， 可 以 将 一 个 像素 邻 域内 的 所 有 像素 的 平均 灰 度 值 赋 给 平滑 图 像 中 对 应 的 
像素 ， 从 而 达到 平 请 的 目的 。 邻 域 平 均 法 虽然 可 以 平 请 图 像 ， 但 在 消除 噪声 的 同时 ， 会 使 图 
像 中 的 一 些 细节 变 得 模糊 。 中 值 滤波 则 在 消除 噪声 的 同时 还 能 保持 图 像 中 的 细节 部 分 ， 防 止 
边缘 模糊 。 与 邻 域 平均 法 不 同 ， 中 值 滤波 是 一 种 非 线性 滤波 ， 它 首先 确定 一 个 奇数 像素 窗口 ， 
窗口 内 各 像素 按 灰 度 值 从 小 到 大 排序 后 ， 用 中 间 位 置 灰 度 值 代替 原 灰 度 值 。 

图 像 锐 化 的 目的 是 使 灰 度 反差 增强 ， 从 而 增强 图 像 中 边缘 信息 ， 有 利于 轮廓 抽取 。 因 为 轮廓 
或 边缘 就 是 图 像 中 灰 度 变化 率 最 大 的 地 方 。 因 此 ， 为 了 把 轮廓 抽取 出 来 ， 就 要 找 一 种 方法 把 图 
像 的 最 大 灰 度 变化 处 找 出 来 。 常 用 的 图 像 锐 化 方法 有 基于 一 阶 微分 的 梯度 算 子 、Roberts 算 子 、 
Sobel 算 子 以 及 基于 二 阶 微分 的 拉 普 拉 斯 算 子 等 。 需 要 说 明 的 是 ， 在 噪声 存在 的 情况 下 ， 单 纯 的 
锐 化 也 会 造成 噪声 的 加 强 ， 此 时 就 需要 先 做 平滑 处 理 。 

基于 频率 域 的 增强 方法 则 是 首先 经 过 传 里 叶 变 换 将 图 像 从 空间 域 变换 到 频率 域 ， 然 后 在 频 
率 域 对 频谱 进行 操作 和 处 理 ， 再 将 其 反 变换 到 空间 域 ， 从 而 得 到 增强 后 的 图 像 。 基 于 频率 域 的 增 
强 方法 主要 有 低 通 滤波 和 高 通 滤波 。 低 通 滤波 的 目的 是 消除 图 像 中 的 随机 噪声 ， 减 弱 边缘 效应 ， 
起 到 平 请 图 像 的 作用 。 常 用 的 低 通 滤波 器 有 理想 低 通 滤波 器 、 巴 特 沃 效 低 通 滤 波 器 、 高 斯 低 通 滤 
波 器 、 梯 形 低 通 滤波 器 等 。 高 通 滤波 的 目的 是 为 了 使 图 像 的 边缘 或 线条 变 得 清晰 ， 实 现 图 像 的 锐 
化 。 常 用 的 高 通 滤波 器 有 理想 高 频 滤 波 固 、 巴 特 沃 效 高 通 滤 波 器 、 高 斯 高 通 滤波 器 、 梯 形 高 通 滤 
波 骨 。 

图 像 的 同 态 滤 波 是 一 种 在 频率 域 扑 缩 动态 范 围 的 同时 提高 图 像 对 比 度 的 方法 ， 它 使 得 图 像 
中 较 上 暗部 分 的 细节 可 以 显现 出 来 ,便于 观察 者 进行 观察 和 处 理 。 
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(©) 数字 图像 与 视频 处 理 


彩色 增强 生成 的 结果 是 彩色 图 像 。 常 用 的 彩色 增强 方法 有 伪 彩 色 增 强 技 术 、 假 彩色 增强 技 
术 。 伪 彩色 增强 是 对 一 幅 灰 度 图 像 的 处 理 ， 通 过 一 定 的 方法 ， 将 一 幅 灰 度 图 像 变换 生成 一 幅 彩 色 
图 像 。 假 彩色 增强 是 从 彩色 到 彩色 的 映射 ， 是 将 一 幅 真 实 的 自然 彩色 图 像 或 遥感 多 光谱 图 像 ， 逐 
点 映射 到 三 基色 所 确定 的 三 维 色 度 空间 。 










































































2.10 习题 


1. 图 像 增 强 的 目的 是 什么 ? 它 包含 哪些 内 容 ? 

2. 灰 度 变换 的 目的 是 什么 ? 有 哪些 实现 方法 ? 

3. 试 给 出 把 灰 度 范围 从 [20，100] 扩展 为 [0，250] ， 把 灰 度 范围 从 [20，240] 压缩 为 
[25，150] 的 变换 函数 。 

4. 什么 是 灰 度 直方 图 ?为 什么 一 般 情况 下 对 离散 图 像 的 直方 图 均衡 化 并 不 能 产生 完全 平坦 
的 直方 图 ? 
. 图 像 平滑 的 目的 是 什么 ? 空间 域 图 像 平滑 的 方法 有 哪些 ? 
. 中 值 滤波 的 原理 是 什么 ?” 它 有 哪些 特点 ? 它 主要 用 于 消除 什么 类 型 的 噪声 ? 
. 图 像 锐 化 的 目的 是 什么 ”空间 域 常 用 的 图 像 锐 化 算 子 有 哪 几 种 ? 
. 简 述 用 于 平滑 滤波 和 锐 化 处 理 的 滤波 器 之 间 的 区 别 和 联系 。 
. 频率 域 低 通 滤波 的 原理 是 什么 ? 有 哪些 滤波 器 可 以 利用 ? 
10. 什么 是 同 态 滤 波 ? 简 述 其 基本 原理 。 
11. 什么 是 伪 彩 色 图 像 增强 ? 其 主要 目的 是 什么 ? 伪 彩 色 人 处 理 的 方法 有 哪些 ? 
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第 3 董 形态 学 图 像 处 理 


本 章 学 习 目 标 : 

e 了 解数 学 形态 学 的 发 展 简 史 和 基本 思想 。 

。 熟悉 集合 和 子 集 的 概念 及 表示 方法 ， 掌 握 集 合 间 的 关系 和 运算 ， 如 集合 的 并 集 、 交 集 、 补 
集 、 差 集 。 

。 理解 数学 形态 学 中 结构 元 素 的 概念 及 作用 。 

e 掌握 膨胀 、 腐 蚀 、 开 闭 运 算 的 物理 含义 ， 以 及 由 基本 运算 导出 的 各 种 二 值 图 像 形 态 学 处 理 
算法 。 

e 了 解 灰 度 图 像 形态 学 处 理 的 基本 运算 ， 以 及 各 种 实用 的 灰 度 图 像 形 态 学 处 理 算法 。 


3.1 引言 


3.1.1 数学 形态 学 的 发 展 简 史 和 基本 思想 


形态 学 ( Morphology) 是 生物 学 中 研究 动 植 物 形 态 和 结构 的 一 个 学 科 分 文 。 数 学 形态 学 
(Mathematical Morphology ) 是 一 门 建立 在 集合 论 基 础 上 的 学 科 ， 它 是 几何 形态 分 析 和 描述 的 有 力 
工具 。 

1964 年 ， 法 国 巴 黎 矿 业 学 院 的 G. Matheron 与 J. Serra 首先 将 数学 形态 学 引入 到 图 像 处 理 领 域 。 
当时 ，G. Matheron 正 从 事 多 孔 介质 的 透气 性 与 其 几何 (或 纹理 ) 之 间 关 系 的 研究 工作 ，J. Serra 在 
G. Matheron 的 指导 下 从 事 铁 矿石 的 定量 岩石 学 分 析 及 预测 开采 价值 的 研究 工作 。 在 研究 过 程 中 ， 
J. Serra 握 充 了 传统 的 分 析 方 法 ， 与 J-C Klein 人 研制 了 一 个 数字 图 像 分 析 设 备 ， 并 将 它 称 为 “纹理 分 
析 器 ”。 随 着 研究 与 分 析 工 作 的 不 断 深入 ， 逐 渐 形 成 了 “ 击 中 / 击 不 中 变换 ”的 概念 。 与 此 同时 ， 
G. Matheron 在 理论 层面 上 第 一 次 引入 了 形态 学 的 表达 式 ， 建 立 了 颗粒 分 析 方 法 。 他 们 的 工作 奠定 了 
这 门 学 科 的 理论 基础 ， 例 如 : 击 中 / 击 不 中 变换 、 开 / 闭 运 算 、 布 尔 模型 及 纹理 分 析 器 的 原型 等 。 之 
后 ， 他 们 共同 建立 了 枫 丹 白露 数学 形态 学 研究 中 心 。 

数学 形态 学 以 集合 论 为 数学 工具 ， 具 有 完备 的 数学 理论 基础 ， 它 的 运算 由 集合 运算 (如 交 、 
并 、 补 等 ) 来 完成 ， 这 意味 着 利用 数学 形态 学 进行 图 像 处 理 ， 必 须 将 所 有 的 图 像 都 以 合理 的 方 
式 转换 为 集合 。 这 里 所 提 及 的 集合 ， 表 示 图 像 中 的 不 同 对 象 。 例 如 ， 在 二 值 图 像 中 ， 所 有 灰 度 值 
为 0 的 像素 (或 者 灰 度 值 为 1 的 像素 ) 的 集合 是 图 像 完 整 的 形态 学 描述 。 这 一 基于 集合 论 观点 
的 结果 是 : 形态 学 算 子 的 性 能 主要 以 几何 方式 进行 刻画 ， 这 似乎 更 适合 视觉 信息 的 处 理 和 分 析 。 
基于 数学 形态 学 的 图 像 处 理 方法 如 图 3-1 所 示 。 

数学 形态 学 的 理论 虽然 很 复杂 ， 
但 它 的 基本 思想 却 是 简单 而 完美 的 。 
形态 学 图 像 处 理 的 基本 思想 就 是 利 
用 具有 一 定形 态 的 结构 元 素 (Struc- 
turing Element, 即 具 有 某 种 特定 结 
构 形 状 的 基本 元 素 ， 例 如 一 定 大 小 




























































































交 、 并 等 集合 运算 


图 3-1 基于 数学 形态 学 的 图 像 处 理 方法 
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的 矩形 、 圆 形 或 者 菱形 等 ) 作为 “ 探 针 ”来 探测 目标 图 像 ， 当 探 针 在 图 像 中 不 断 地 移动 时 ， 便 
可 考察 图 像 的 形状 和 各 个 部 分 之 间 的 相互 关系 ， 从 而 获取 有 关 图 像 的 形态 结构 特征 的 信息 ， 进 
而 达到 对 图 像 进行 分 析 和 识别 的 目的 。 结 构 元 素 的 选择 十 分 重要 ， 根 据 探测 研究 图 像 的 不 同 结 
构 特 点 ， 结 构 元 素 可 携带 形状 、 大 小 、 连 通 性 、 灰 度 和 色 度 等 信息 。 由 于 不 同 的 结构 元 素 可 以 用 
来 检测 图 像 不 同 的 特征 ， 因 此 结构 元 素 的 设计 是 分 析 图 像 的 重要 步骤 。 

数学 形态 学 是 一 种 有 效 的 非 线 性 图 像 处 理 和 分 析 理 论 ， 由 一 组 形态 学 的 代数 运算 构成 。 最 
基本 的 形态 学 运算 有 膨胀 (Dilation) 、 腐 蚀 (Erosion)、 开 (Opening) 和 闭 (Closing)。 基 于 这 
些 基 本 运算 还 可 推导 和 组 合成 各 种 实用 的 形态 学 图 像 处 理 算法 ， 用 它们 可 以 进行 图 像 形 状 和 结 
构 的 分 析 及 处 理 ， 可 以 解决 噪声 抑制 、 图 像 滤 波 、 边 缘 检测 、 特 征 提 取 、 纹 理 分 析 、 图 像 复 原 、 
图 像 重 建 、 图 像 分 割 等 方面 的 问题 。 


3.1.2 集合 论 基础 


1. 集合 的 概念 

集合 作为 数学 中 最 原始 的 概念 之 一 ， 通 常 是 指 按 照 某 种 特征 或 规律 组 合 起 来 的 事物 的 总 体 。 
例如 ， 所 有 正 的 自然 数 构成 的 正 整数 集合 ， 所 有 四 边 形 构成 的 四 边 形 集合 。 集 合 通常 可 用 带 或 不 
带 标 号 的 大 写字 母 ， 如 A、B、C、…、A,、B, 、C, 、… 等 表示 。 

组 成 集合 的 每 个 事物 (或 称 成 员 ) 叫 作 集 合 的 元 素 。 集 合 中 的 元 素 一 般 用 带 或 不 带 标 号 的 
小 写字 母 ， 如 a、b、c、…、a,、b,、c;、… 等 表示 。 
集合 和 元 素 的 关系 为 属于 (用 符号 e 表示 ) 或 不 属于 (用 符号 ¢ 表示 ) 关系 。 对 于 给 定 的 
集合 ， 任 一 个 事物 要 么 属于 该 集合 ， 要 么 不 属于 该 集合 ， 而 不 会 合 糊 不 清 。 如 果 6 是 集合 4 的 一 
个 元 素 ， 则 记 为 eA ( 读 作 4b 属 于 4)， 否 则 记 为 5g4( 读 作 4 不 属于 4)。 

特别 地 ， 不 包含 任何 元 素 的 集合 称 为 空 集 ， 用 符号 个 表 示 。 对 于 空 集 ， 显 然 有 Vs 他。 此 
外 ， 集 合 中 的 元 素 也 可 以 是 集合 。 

本 章 关注 的 集合 元 素 是 图 像 中 描述 的 对 象 或 其 他 感 兴趣 特征 的 像素 坐标 ， 集 合用 于 表示 图 
像 中 的 不 同 对 象 。 例 如 ， 对 于 二 值 图 像 而 言 ， 通 常用 取 值 为 “1” 的 像素 的 集合 表示 前 景 ( 目 
标 ) ， 而 用 取 值 为 “0” 的 像素 的 集合 表示 图 像 的 背景 。 

对 于 一 幅 图 像 4， 如 果 点 4a 在 4 的 区 域 以 内 ,那么 就 说 w 是 
4 的 元 素 ， 记 为 ae 4; 如 果 点 6 不 在 4 的 区 域 中 ， 那 么 就 说 0 不 
是 4 的 元 素 ， 记 为 6g A4， 如 图 3-2 所 示 。 

2. 集合 的 表示 法 
集合 是 由 它 包 含 的 元 素 完全 确定 的 ， 为 了 表示 一 个 集合 ， 
通常 有 枚 举 法 、 隐 式 法 (叙述 法 ) 、 文 氏 图 等 方法 。 图 3-2 元 素 与 集合 间 的 关系 

。 枚 举 法 : 是 一 种 显 式 表示 法 ， 其 优点 在 于 具有 透明 性 。 但 
其 缺点 是 ， 在 表示 具有 某 种 特性 的 集合 或 集合 中 元 素 过 多 时 受到 了 一 定 的 局 限 ; 而 且 ， 从 计算 机 
的 角度 看 ， 显 式 法 是 一 种 “静态 ”表示 法 ， 如 果 一 下 子 将 这 么 多 的 “数据 ”输入 到 计算 机 中 去 ， 
那 将 占据 大 量 的 “内 存 ”。 

。 隐 式 法 (叙述 法 ): 用 一 集合 之 元 素 所 具有 的 共同 性 质 来 描述 这 个 集合 ， 通 常用 4 = jx 
1P(x) | 来 表示 。 其 中 “1 ”前 面 的 x 代表 集合 4 中 的 任意 元 素 , “1 ”后面 的 P(x) 表示 x 必 
须 具 有 性 质 P。 其 突出 优点 是 原则 上 不 要 求 列 出 集合 中 全 部 元 素 ， 而 只 要 给 出 该 集合 中 元 素 的 特 
性 。 例如，4 = |x|x 是 正 整 数 } 。 

。 文 氏 图 法 : 是 一 种 利用 平面 上 点 的 集合 来 描述 的 图 解法 ， 一 般 用 平面 上 的 圆 、 椭 圆 或 矩形 
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表示 一 个 集合 。 
3、 集 合 间 的 关系 和 运算 
(1) 集合 的 子 集 和 相等 


设 有 和 集合 4 和 集合 B， 如 果 集 合 4 中 的 每 一 个 元 素 都 是 集合 B 的 一 个 元 素 ， 则 称 4 为 B 的 子 
集 或 包含 4， 记 为 4CB 或 B24。 

进一步 ， 若 集合 4 是 集合 B 的 子 集 ， 并 且 B 中 至 少 有 一 个 元 素 不 在 集合 4 中 ， 则 称 4 是 B 
的 真子 集 或 B 真 包含 4， 记 为 4cB 或 BDA4， 其 文 开 图 表示 如 图 3-3 所 示 。 
寺 别 地 ， 当 且 仅 当 4CB 和 BCAh 同时 成 立时 ， 称 集合 4 和 集合 B 相 等 ， 记 为 4=B。 
(2) 全 集 


如 果 一 个 集合 含有 我 们 所 研究 问题 中 涉及 的 所 有 元 素 ， 那 么 就 称 这 个 集合 为 全 集 , 通常 用 U 
表示 ， 其 文 氏 图 表示 如 图 3-4 所 示 。 对 任意 集合 4, 均 有 ACU。 


图 3-3 集合 4 是 集合 B 的 子 集 图 3-4 全 集 的 文 氏 图 表示 
(3) 集合 的 并 集 
由 集合 4 和 集合 B 中 所 有 元 素 组 成 的 集合 称 为 集合 4 和 集合 B 的 并 集 (Union) ， 记 为 4U 






































































































































B， 并 用 隐 式 法 ( 氢 述 法 ) 表示 为 


AUB=|x|xeA 或 xeB| (3-1) 

















集合 4 和 集合 B 的 并 集 的 文 氏 图 表示 如 图 3-5 所 示 ， 集 合并 运算 的 结果 在 图 中 用 阴影 区 域 表示 。 








(4) 集合 的 交集 
由 集合 4 和 和 集合 B 中 所 有 了 既 属 于 4 也 属于 8B 的 公共 元 素 组 成 的 集合 称 为 集合 4 和 集合 B 的 

















交集 ， 记 为 4nB， 并 用 隐 式 法 ( 倒 述 法 ) 表示 为 





ANMNB= |x|lxeAHxeB! (3-2) 





























集合 4 和 集合 B 的 交集 的 文 氏 图 表示 如 图 3-6 所 示 ， 集合 交 运 算 的 结果 在 图 中 用 阴影 区 域 








表示 。 











特别 地 ， 如 果 集 合 4 和 集合 B 没有 公共 元 素 ， 称 集合 4 和 集合 B 不 相 容 或 者 互 斥 ， 用 公式 


OS 示 为 
ANMB= 


图 3-5 集合 4 和 集合 B 的 并 集 图 3-6 集合 4 和 集 


(3-3) 

















法 让 


第 3 章 | 81 











四 ) 数字 图 像 与 视频 处 理 


(5) 集合 的 补 集 
由 所 有 不 属于 集合 4 的 元 素 组 成 的 集合 称 为 集合 4 的 补 集 ， 记 为 涉 。 设 忌 是 全 集 ， 集 合 4 
的 补 集 可 表示 为 






































A*=U-A= {xlxg¢A)| (3-4) 
集合 4 的 补 集 如 图 3-7 中 的 阴影 区 域 所 示 。 

(6) 集合 的 差 集 

由 所 有 属于 集合 4 但 不 属于 集合 B 的 元 素 组 成 的 集合 称 为 集合 4 和 集合 B 的 差 集 ， 记 为 4 - 
B， 并 可 表示 为 




















A-B=|ixlxeA 日 x¢gB| (3-5) 
集合 4 和 集合 B 的 差 集 的 文 氏 图 表示 如 图 3-8 所 示 ， 集合 差 运算 的 结果 在 图 中 用 阴影 区 域 表 
夏 。 






































图 3-7 集合 4 的 补 集 图 3-8 集合 4 和 集合 B 的 差 集 


根据 集合 的 补 集 的 概念 ， 集 合 4 和 集合 B 的 差 集 还 可 以 看 成 集合 4 和 集合 B" 的 交集 ， 并 可 
表示 为 














A-B=ANMB (3-6) 
3.1.3 数学 形态 学 中 的 儿 个 基本 概念 


1. 击 中 / 击 不 中 

设 有 两 幅 图 像 4 和 B， 如 果 ANMBz 人 @， 那 么 称 B 击 中 (Hit) 4， 记 为 有 1T4， 否则， 如果 4 
MB=， 那 么 称 B 击 不 中 (Miss) 4。 

2. 平移 与 反射 

设 4 是 一 幅 数 字 图 像 ( 见 图 3-9a) ,a 是 4 的 元 素 ( 即 cs4) ,2 是 一 个 点 ( 见 图 3-9b)， 那么 
定义 4 被 上 平移 后 的 结果 为 














A+b=|latblaeAh! (3-7) 
即 取出 4 中 的 每 个 点 a 的 坐标 值 ， 将 其 与 点 5 的 坐标 值 相 加 ， 得 到 一 个 新 的 点 的 坐标 值 a+ 5b， 所 有 
这 些 新 点 所 构成 的 图 像 就 是 4 被 5 平移 的 结果 ， 记 为 4+5， 如 图 3-9c 所 示 。 





一 幅 数 字 图 像 4 关于 原点 的 反射 定义 为 
A=|xlx= -aae4| (3-8) 
即 反 射 后 的 图 像 4 是 由 原 图 像 4 的 每 个 点 坐标 值 取 相反 数 后 得 到 的 点 所 构成 的 图 像 ， 如 图 3-9d 











所 示 。 

3. 结构 元 素 

为 了 确定 目标 图 像 的 结构 ， 必 须 逐 个 考察 图 像 各 部 分 之 间 的 关系 ， 并 且 进 行 检 验 ， 最 后 得 到 
一 个 各 部 分 之 间 关 系 的 集合 。 在 考察 目标 图 像 各 部 分 之 间 的 关系 时 ， 和 需要 设计 一 种 “结构 元 
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图 3-9 平移 与 反射 


素 "。 在 图 像 中 不 断 移动 结构 元 素 ， 就 可 以 考察 图 像 之 间 各 部 分 的 关系 ， 从 而 提取 有 用 的 特征 进 
行 结构 分 析 和 描述 。 可 以 说 ， 结 构 元 素 是 数学 形态 学 中 一 个 最 重要 也 是 最 基本 的 概念 。 

在 形态 学 图 像 处 理 中 ， 被 考察 或 被 处 理 的 图 像 称 为 目标 图 像 (有 时 也 简称 为 图 像 )， 在 本 
书 中 一 般 用 集合 4 来 表示 ; 用 于 收集 信息 的 “ 探 针 ” 称 为 结构 元 素 (也 称 结构 基 元 或 结构 单 
元 ) ， 一 般 用 集合 来 表示 。 结 构 元 素 通 常 都 是 一 些 比 较 小 的 图 像 。 在 结构 元 素 中 可 以 指定 一 
个 点 为 原点 ， 它 是 结构 元 素 参 与 形态 学 运算 的 参考 点 。 需 要 注意 的 是 ， 原 点 可 以 包含 在 结构 
元 素 中 ， 也 可 以 选择 在 结构 元 素 之 外 ， 但 运算 的 结果 常 不 相同 。 通 常 形态 学 图 像 处 理 以 在 图 
像 中 移动 一 个 结构 元 素 并 进行 一 种 类 似 于 卷 积 运算 的 方式 进行 ， 只 是 以 逻辑 运算 代替 卷 积 的 
乘 加 运算 。 
结构 元 素 的 形状 和 尺寸 选择 十 分 
重要 ， 是 有 效 提 取 目 标 图 像 信息 的 关 
键 。 当 要 处 理 的 图 像 是 二 值 图 像 时 ， 
结构 元 素 也 采用 二 值 图 像 ， 当 要 处 理 
的 图 像 是 灰 度 图 像 时 ， 则 采用 灰 度 图 
像 作为 结构 元 素 。 根 据 图 像 分 析 目 的 
的 不 同 ， 常 用 的 结构 元 素 有 十 字形 、 
方形 、 圆 形 等 ， 如 图 3-10 所 示 。 在 图 3-10 常用 的 结构 元 素 
多 尺度 形态 学 分 析 中 ， 结 构 元 素 的 大 小 可 以 变化 ， 但 结构 元 素 的 尺寸 通常 要 明显 小 于 目标 图 像 
的 尺寸 。 


3.2 二 值 形态 学 基本 运算 


二 值 形态 学 运算 的 过 程 就 是 在 图 像 中 移动 结构 元 素 ， 将 结构 元 素 与 其 下 面 重 合 部 分 的 图 像 
进行 交 、 并 等 集合 运算 。 

二 值 形态 学 运算 有 腐蚀 、 脱 胀 、 开 运算 和 闭 运算 4 种 基本 运算 ,并 且 在 这 些 基 本 运算 的 基础 
上 可 以 推导 和 组 合 出 一 系列 实用 的 二 值 形态 学 处 理 算法 。 


3.2.1 腐蚀 


腐蚀 是 一 种 最 基本 的 数学 形态 学 运算 ， 所 有 其 他 形态 学 运算 均 可 在 这 一 运算 的 基础 上 导出 。 
腐蚀 表示 用 某 种 控 针 〈 即 结构 元 素 ) 对 一 个 图 像 进行 探测 ， 以 便 找 出 在 图 像 内 部 可 以 放下 该 结 
构 元 素 的 区 域 。 

假设 4 为 目标 图 像 ，B 为 结构 元 素 ， 则 使 用 B 对 4 进行 腐蚀 可 用 4GB8 表示 ， 并 定义 为 
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四 ) 数字 图 像 与 视频 处 理 





























4GB=ixzlIB+xC4| (3-9 ) 

可 见 ，4B 表示 将 B 平 移 x 后 仍 包含 在 4 内 的 所 有 点 x 组 成 的 集合 。 换 句 话 说 ， 用 B 腐蚀 
4 得 到 的 集合 是 B 完全 包含 在 4 中 时 B 的 原点 位 置 的 集合 。 腐 蚀 运 算 的 基本 过 程 是 ， 把 结构 元 素 
B 看 作 是 一 个 卷 积 模板 ， 每 当 结 构 元素 B 平移 到 其 原点 位 置 与 目标 图 像 4 中 那些 像素 值 为 “1” 
的 位 置 重合 时 ， 就 判断 被 结构 元 素 B 覆盖 的 子 图 像 的 其 他 像素 的 值 是 否 都 与 结构 元 素 B 相应 位 
置 的 像素 值 相同 。 当 它们 都 相同 时 ， 就 将 输出 结果 图 像 中 的 那个 与 原点 位 置 对 应 的 像素 位 置 的 
值 置 为 “1”， 和 否则 置 为 0。 腐 蚀 运算 的 实质 就 是 在 目标 图 像 4 中 标 出 那些 与 结构 元 素 B 相同 的 子 
图 像 的 原点 位 置 的 像素 。 

腐蚀 运算 的 示意 图 如 图 3-11 所 示 。 

腐蚀 运算 要 求 结构 元 素 必 须 完 全 包括 在 被 腐蚀 
图 像 内 部 ; 换 句 话说 ， 当 结构 元 素 在 目标 图 像 上 平 
移 时 ， 结 构 元 素 中 的 任何 元 素 不 能 超出 目标 图 像 范 
围 。 如 果 原 点 在 结构 元 素 的 内 部 ， 则 腐蚀 后 的 图 像 
为 输入 图 像 的 一 个 子 集 ; 如 果 原 点 在 结构 元 素 的 外 
部 ,那么 ,腐蚀 后 的 图 像 则 可 能 不 在 输入 图 像 的 
内 部 。 

图 3-12 所 示 为 用 十 字形 结构 元 素 ( 见 图 3-12b) 对 目标 图 像 ( 见 图 3-12a) 进行 腐蚀 的 运算 
过 程 。 图 3-12b 中 的 结构 元 素 的 原点 选择 在 十 字形 模板 的 中 心 位 置 ( 即 “1” 像 素 ) 。 图 3-12c 中 
的 “1” 像 素 所 在 的 区 域 为 原 属于 目标 图 像 而 现在 被 腐蚀 掉 的 部 分 ， 深 背景 色 的 “1” 像素 所 在 
区 域 则 为 腐蚀 后 的 结果 。 

















































































































图 3-11 腐蚀 运算 的 示意 图 
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0) 经 腐蚀 运算 后 的 结 





图 3-12 ”腐蚀 运算 示例 

由 此 可 见 ， 腐 蚀 运算 具有 缩小 图 像 和 消除 图 像 中 比 结构 元 素 小 的 成 分 的 作用 。 如 果 结 构 元 
素 取 3 x3 的 像素 块 ， 腐 蚀 将 使 物体 的 边缘 沿 周边 减少 1 个 像素 。 腐 蚀 可 以 把 小 于 结构 元 素 的 物 
体 (如 毛刺 、 小 凸 起) 去 除 ， 这样 选 取 不 同 大 小 的 结构 元 素 ， 就 可 以 在 原 图 像 中 去 掉 不 同 大 小 的 
物体 。 如 果 两 个 物体 之 间 有 细小 的 连通 ， 那 么 当 结 构 元 素 足够 大 时 ， 通 过 腐蚀 运算 可 以 将 两 个 物 
体 分 开 。 因 此 在 实际 应 用 中 ， 可 以 利用 腐蚀 运算 去 除 物 体 之 间 的 粘连 ， 消 除 图 像 中 的 小 颗粒 
噪声 。 
3.2.2 膨胀 

腐蚀 可 以 看 作 是 将 图 像 4 中 每 一 个 与 结构 元 素 B 全 等 的 子 集 B+x 收缩 为 点 x。 而 膨胀 运算 相反 ， 
它 将 4 中 的 每 一 个 点 x 扩大 为 B+x。 使 用 B 对 4 进行 膨胀 运算 ， 记 为 4@BB， 并 定义 为 

ADB= {xl(B+x)NAzO) (3-10) 
膨胀 运算 的 基本 过 程 描述 如 下 : 先 对 结构 元 素 B 做 关于 其 原点 的 反射 ， 得 到 反射 集合 A， 然 
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后 在 目标 图 像 4 上 将 平移 x， 则 那些 平移 后 与 目标 图 像 4 至 少 有 1 个 非 0 元 素 相交 时 对 应 的 
B 的 原点 位 置 所 组 成 的 集合 就 是 膨胀 运算 的 结果 。 显 然 ，4 与 平移 后 的 下 的 交集 不 为 空 集 可 以 理 
解 为 膨胀 运算 有 另 一 种 定义 














4@B = {xl(B+x)NACA| (3-11) 

在 膨胀 运算 中 ， 当 结构 元 素 在 目标 图 像 上 平 

移 时 ， 人 允许 结构 元 素 中 的 非 原点 像素 超出 目标 图 
像 范 围 。 膨 胀 运算 的 示意 图 如 图 3-13 所 示 。 

图 3-14 所 示 为 膨胀 运算 的 过 程 。 其 中 图 3-14a 

所 示 为 由 0 和 1 组 成 的 原始 二 值 图 像 ， 图 3-14b 
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置 ( 即 “1” 像 素 ); 图 3-14c 所 示 为 经 膨胀 处 理 
后 得 到 的 输出 图 像 ， 其 中 深 背 景色 的 “1” 像 素 
为 原先 不 属于 目标 图 像 而 由 结构 元 素 膨胀 产生 的 
新 的 像素 ， 膨 胀 的 结果 就 是 原始 图 像 的 “1” 像 素 与 扩张 出 的 “1” 像 素 的 集合 。 


图 3-13 ”膨胀 运算 的 示意 图 
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a) 原始 图 像 b 结构 元 素 o) 经 膨胀 运算 后 的 结果 


图 3-14 膨胀 运算 示例 
由 此 可 见 ， 膨 胀 运算 对 原 图 像 具 有 扩张 作用 。 如 果 结 构 元 素 取 简 单 的 3 x3 的 像素 块 ， 膨 胀 
将 使 物体 的 边缘 沿 周边 增加 1 个 像素 。 选 取 不 同 尺 寸 、 形 状 的 结构 元 素 ， 脱 胀 运算 可 以 较 好 地 填 
充 物 体内 部 的 空洞 以 及 连接 间距 小 于 结构 元 素 的 相 邻 目标 区 域 。 


3.2.3 腐蚀 运算 与 膨胀 运算 的 对 偶 性 

根据 集合 求 补 运算 和 反射 运算 的 定义 ， 了 膨胀 是 腐蚀 运算 的 对 偶 运算 ， 可 以 通过 对 补 集 的 腐 
人 蚀 来 定义 。 

设 以 4 表示 集合 4 的 补 集 ,表示 8 关于 坐标 原点 的 反射 。 那么 ， 目 标 图 像 4 被 结构 元 素 
B 膨胀 可 定义 为 





















































A@®B = (4°©B)" (3-12) 
为 了 利用 结构 元 素 B 对 目标 图 像 4 进行 膨胀 ， 可 先 对 B 做 关于 其 原点 的 反射 ， 得 到 反射 集 
合 B， 再 利用 对 4° 进行 腐蚀 。 
膨胀 和 腐蚀 这 两 种 运算 是 紧密 联系 在 一 起 的 ， 一 个 运算 对 图 像 目标 的 操作 相当 于 另 一 个 运 
算 对 图 像 背 景 的 操作 ， 其 对 偶 性 可 表示 为 


























(4@PB) =A°OB (3-13 ) 
(4GB) = 4 及 (3-14) 
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对 于 脱 胀 和 腐蚀 的 对 偶 性 ， 下 面 通过 如 图 3-15 所 示 的 一 个 具体 实例 来 证 明 。 
图 3-15a 和 图 3-15b 所 示 分 别 为 集合 4 和 结构 元 素 B; 图 3-15c 和 图 3-15d 所 示 分 别 为 4 四 B 和 
AB; 图 3-15e 和 图 3-15f 所 示 分 别 为 4 和 肠 ; 图 3-1$g 和 图 3-15h 所 示 分 别 为 4G8 和 4 有 
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像 己 视频 处 理 







































































































































































比较 图 3-15c 和 网 3-1$g 可 验证 式 (3-13) ， 比 较 图 3-15 d 和 图 3-15h 即 可 验证 式 (3-14 ) 。 

0lolololo 0lololololo 
1lolololo 0lololololo 
1|1|1|lolo0 0lol1ilololo 
ol1l1ilolo 0lolilololo 
0l1l0ololo 工 | 1 0lololololo 
0lolololo 1 | 0 0lololololo 
a) 集合 4 b)B d) AGB 

四 加 
e) 集合 4 D)B h) A®B 

图 3-15 膨胀 和 腐蚀 的 对 偶 性 








通过 上 述 对 膨胀 和 腐蚀 的 定义 我 们 可 以 看 出 这 两 种 数学 形态 学 中 最 基本 的 运算 子 在 实现 效 
果 上 是 相反 的 。 腐 蚀 具 有 收缩 图 像 的 作用 ， 膨 胀 具 有 扩大 图 像 的 作用 。 如 果 采 用 相同 的 结构 元 
素 ， 腐 蚀 对 图 像 目标 边缘 部 分 的 消减 程度 与 膨胀 在 图 像 边缘 部 分 增长 的 程度 是 一 样 的 ， 但 这 并 
不 说 明 腐 蚀 与 膨胀 是 一 对 互 道 的 运算 。 正 因为 如 此 ， 我 们 可 以 通过 这 两 个 最 基本 运算 的 组 合 得 
到 形态 学 的 其 他 基本 运算 ， 如 下 面 将 要 介绍 的 开 运 算 和 闭 运 算 。 


3.2.4 开 运 算 


开 运 算是 腐蚀 和 膨胀 的 组 合 运 算 . 先 用 结构 元 素 B 对 目标 图 像 4 进行 腐蚀 ， 然 后 对 其 结果 
了 用 同一 个 结构 元 素 B 进行 膨胀 运算 。 使 用 结构 元 素 B 对 目标 图 像 4 进行 开 运 算 ， 用 符号 4oB 
表示 ， 其 定义 为 



























































4 - 册 





4oB=(4GB)GB (3-15) 
开 运 算 的 示意 图 如 图 3-16 所 示 。 
开 运 算 也 可 以 通过 计算 所 有 可 以 填 入 图 像 内 部 的 结构 元 素平 移 的 并 集 求 得 ， 其 数学 表达 式 为 
AcB=U(B+x:B+xCA) (3-16) 
当 结 构 元 素 B 在 图 像 4 内 部 移动 时 ，4。B 就 是 使 结构 元 素 B 内 的 任何 像素 不 越 出 图 像 4 边 
缘 的 像素 点 的 集合 。 开 运算 的 集合 解释 如 图 3-17 所 示 。 
图 3-18 所 示 为 用 圆 形 结构 元 素 对 H 形 图 像 进行 开 运算 的 过 程 。 从 开 运 算 的 结果 图 像 可 以 看 
出 ， 开 运算 具有 平滑 图 像 外 边缘 的 作用 ,使 HH 形 图 像 中 的 凸 角 变 圆 ， 并 断 开 比 结构 元 素 小 的 狭 
罕 细 长 的 连接 带 。 
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sO a) B 在 4 中 平移 b) 开 运算 结果 (阴影 部 分 ) 
图 3-16 ” 开 运 算 的 示意 图 图 3-17 开 运 算 的 集合 解释 


I 量 


a) 原 图 像 b) 对 图 a) 的 腐蚀 运算 0) 腐蚀 运算 结果 d) 对 图 co) 进行 膨胀 运算 6) 对 图 3) 的 开 运 算 结果 
图 3-18 运算 示例 























3.2.5 闭 运 算 


闭 运 算是 开 运 算 的 对 偶 运 算 ， 是 膨胀 和 腐蚀 的 组 合 运算 : 先 用 结构 元 素 B 对 目标 图 像 4 进 
行 膨胀 运算 ,然后 对 其 结果 再 用 同一 个 结构 元 素 B 进行 腐蚀 运 z 算 。 使 用 结构 元 素 对 目标 图 像 4 
进行 闭 运 算 ， 用 符号 4. B 表示 ， 其 定义 为 
A.B=(A®mB)OB (3-17) 
闭 运 算 的 示意 图 如 图 3-19 所 示 。 ABB 
图 3-20 所 示 为 用 圆 形 结构 元 素 对 H 形 图 
像 进 行 闭 运算 的 过 程 。 从 闭 运 算 的 结果 图 像 可 
以 看 出 ， 闭 运算 具有 平滑 图 像 内 边缘 的 作用 ， 
使 了 形 图 像 中 的 凹 角 变 圆 。 -GEG- 
闭 运 算 与 开 运 算 互 为 对 偶 运 算 ， 它 们 的 对 
偶 性 可 以 表示 为 图 3-19 闭 运 算 的 示意 图 
(4oB) "=42 . 房 (3-18) 























4@8 (4 中 5)GB 





























(4.B) =4co8 (3-19) 





C2) 
a) 原 图 像 b) 对 图 a) 的 膨胀 运算 。 ”0o) 膨胀 运算 结果 ”4q) 对 图 c) 进 行 腐蚀 运算 。 6) 对 图 a) 的 闭 运算 结果 
图 3-20” 闭 运算 示例 
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四 j 数字 图 像 与 视频 处 理 








3.3 二 值 图 像 的 形态 学 处 理 


在 腐蚀 、 膨 胀 、 开 运算 和 闭 运 算 4 种 二 值 形态 学 基本 运算 的 基础 上 ， 可 以 组 合 得 到 一 系列 实 
用 的 形态 学 处 理 算法 。 在 处 理 二 值 图 像 时 ， 形 态 学 的 主要 应 用 是 提取 能 够 描述 和 表示 图 像 形 状 
的 有 用 成 分 ， 如 提取 某 一 区 域 的 边缘 、 骨 架 等 。 此 外 ， 与 这 些 算法 有 着 密切 联系 的 图 像 预 处 理 或 
后 处 理 中 的 相关 技术 ， 如 区 域 填充 、 细 化 、 粗 化 等 技术 也 经 常 使 用 形态 学 运算 。 在 下 面 的 表述 
中 ,我们 以 二 值 图 像 为 例 ， 用 1 表示 黑色 ,0 表示 白色 。 


3.3.1 边缘 提取 


物体 的 边缘 是 图 像 的 基本 特征 ， 提 供 了 物体 形状 的 重要 信息 。 因 此 ， 边 缘 检测 是 图 像 处 理 过 
程 中 必 不 可 少 的 一 环 。 

利用 形态 学 进行 边缘 提取 的 基本 思想 是 : 用 一 定 的 结构 元 素 对 目标 图 像 进 行 形态 学 处 理 ， 
再 将 处 理 后 的 结果 与 原 图 像 相 减 。 依 据 所 用 形态 学 运算 的 不 同 ， 可 以 得 到 二 值 图 像 的 内 边缘 、 外 
边缘 和 形态 学 梯度 3 种 边缘 。 其 中 ， 内 边缘 是 用 原 图 像 减 去 腐蚀 后 的 结果 图 像 得 到 ; 外 边缘 可 用 
图 像 膨胀 结果 减 去 原 图 像 得 到 ; 形态 学 梯度 可 用 图 像 的 膨胀 结果 减 去 图 像 的 腐蚀 结果 得 到 。 

令 目 标 图 像 4 的 内 边缘 、 外 边缘 和 形态 学 梯度 分 别 记 为 By (4)、Bs.(4) 和 Bir (4)， 则 其 
定义 为 








































































































































































































Bn (A) =A- (4B) (3-20) 
Br(A) =(4B) -4 (3-21) 
Bux(A4) = (A®B) - (AB) (3-22) 


图 3-21 所 示 为 利用 式 (3-20)、 式 (3-21)、 式 (3-22) 分 别 对 一 幅 简单 的 二 值 图 像 进 行 形态 学 
运算 求 得 的 内 边缘 、 外 边缘 及 形态 学 梯度 边缘 提取 的 结果 。 





a) 原 图 像 b) 内 边缘 0) 外 边缘 d) 形态 学 梯度 
图 3-21 二 值 图 像 边缘 提取 示例 


3.3.2 区域 填 充 


区 域 填充 是 指 在 已 知 区 域 边缘 的 基础 上 所 完成 的 对 该 区 域 的 填充 操作 。 与 边缘 提取 操作 
不 同 ， 区 域 填充 是 对 图 像 背景 像素 进行 操作 ， 一 般 以 图 像 的 膨胀 、 求 补 和 求 交 运算 为 基础 ， 
旨 在 填充 图 像 中 我 们 感 兴趣 的 边界 区 域 。 区 域 与 其 边缘 可 以 互 求 ， 也 就 是 说 ， 如 果 已 知 区 域 
则 可 按 式 (3-20) 、 式 (3-21) 求 得 其 边缘 ， 反 之 若 已 知 边缘 则 也 可 通过 填充 得 到 区 域 。 

下 面 以 图 3-22 所 示 为 例 ， 说 明 区 域 填 充 的 具体 过 程 。 令 图 像 4 中 所 有 的 非 边界 像素 标记 为 0。 
区 域 填 充 的 目的 是 从 边界 内 的 一 个 点 开始 , 用 1 填充 整个 区 域 。 首 先 ， 在 边界 内 取 一 初始 点 并 标记 
为 1， 如 图 3-22 d 所 示 (〈( 即 马 )。 然 后 ， 利 用 迭代 公式 (3-23) 对 图 像 4 进行 区 域 填 充 ， 即 

和 =(X 中 B)n4 ,k=1,2,3,. (3-23 ) 
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其 中 ， 结 构 元 素 B 设置 为 图 3-22c 
所 示 的 原点 在 中 心 位 置 的 对 称 结 
构 元 素 。 

在 本 例 的 区 域 填充 过 程 中 ， 
图 3-22e 所 示 为 X= (X,@@B) mn 
4A" 的 结果 ， 图 3-22f 所 示 为 X= 
(XB) 4 的 结果 ,图 3-22g 
所 示 为 和 = (XB) 4 的 结果 ， 
图 3-22h 所 示 为 乱 = (XB) m4 的 
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结果 。 由 于 继续 填充 出 现 了 X, =X)， 
所 以 应 根据 下 一 步骤 进行 判断 。 
最 后 ， 当 满足 条 件 X,， = 部， 
时 停止 迁 代 , 和 和 4 的 并 集 为 填 
充 集合 和 它 的 边界 。 在 本 例 中 ， 
因为 已 经 满足 条 件 XX =X,， 停 止 
达 代 ， 则 成 和 边界 图 像 4 的 并 集 
就 是 所 求 结 果 ， 如 网 3-22i 所 示 。 

需要 说 明 的 是 ， 如 果 不 对 
式 (3-23 ) 中 加 以 与 4° 求 交 的 限 
制 ， 那 么 对 图 像 的 膨胀 处 理 将 会 填 
充 整个 区 域 。 在 迭代 过 程 中 ， 每 一 
步 都 求 与 4“ 的 交集 ， 可 以 将 得 到 
的 结果 限制 在 感 兴趣 的 区 域内 ， 这 
一 处 理 过 程 也 称 作 条 件 膨 胀 。 

图 3-23 所 示 为 一 个 对 细胞 图 
像 进行 区 域 填充 的 示例 。 
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g) X6 





3-22 





h) X7 i UA 


区 域 填充 过 程 示 意图 





a) 细胞 的 二 值 图 像 
图 3-23 ”对 细胞 图 像 的 区 域 填充 示例 











b) 区 域 填充 结果 
































3.3.3 ”上 骨架 抽取 
骨架 是 描述 图 像 的 几何 形状 及 其 拓扑 性 质 的 重要 特征 之 一 。 抽 取 图 像 骨 架 的 目的 是 为 了 表 
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四 ) 数字 图 像 与 视频 处 理 


达 目 标的 形状 结构 ， 它 有 助 于 突出 目标 的 形状 特点 和 减少 元 余 的 信息 量 。 因 而 ,骨架 抽取 在 文 
识别 、 工 业 零 部 件 形状 识别 或 地 质 构造 识别 等 领域 有 着 重要 的 应 用 。 

骨架 抽取 算法 从 形态 学 的 角度 定义 如 下 : ee S,(4) 为 骨架 子 
集 ， 则 图 像 4 的 骨架 可 以 用 腐蚀 和 开 运 算得 到 ,有 
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SC4) =U 5,(4) 











(3-24) 
S,(4) = (A4OnB) - (AOnB)°B 
式 中 ，B 为 适当 的 结构 元 素 ; AnB 表示 对 4 连续 腐蚀 nn 次 ， 即 
AOnB=((.…(4AOB) OB)O.…)OB (3-25) 
式 (3-24) 中 ,NN 为 4 被 腐蚀 为 空 集 前 的 最 后 一 次 近 代 ， 即 
N=maxin| (AOnB) #0O) (3-26) 





由 式 (3-24) 可 以 看 出 ， ad 可 以 由 连续 nn 次 用 B 对 S,(4) 膨胀 得 到 。 也 就 是 说 ,已 知 一 
幅 图 像 的 骨架 图 像 ， 可 以 利用 形态 学 变换 的 方法 重建 原始 图 像 ， 这 实际 上 是 求 骨 架 的 道 运 算 过 
程 。 图 像 4 用 人 (4) 重 构 可 以 写成 


4 Us,()@n8) (3-27) 骨架 J 
式 中 ，B 仍 为 结构 元 素 ，S (4) @nB 表示 连续 n 次 用 8 让 a ef 
对 5,(4) 膨胀 ， 关 可 表示 为 






































(3-28) 
图 3-24 所 示 为 用 形态 学 方法 对 “骨架 提取 ”字样 De sl 
的 图 像 进行 骨架 抽取 的 结果 。 图 3-24 骨架 抽取 示例 
3.3.4 细 化 


细 化 (Thinning) 就 是 把 输入 的 具有 一 定 宽度 的 图 像 轮廓 用 逐次 去 掉 边缘 的 方法 最 终 变 为 宽 
度 仅 为 一 个 像素 的 骨架 。 细 化 方法 就 是 通过 细 化 用 骨架 来 代表 对 象 的 形状 ,并 显示 出 图 像 的 拓 
扑 结构 。 

细 化 是 为 了 弥补 腐蚀 在 数学 形态 学 分 析 中 的 某 种 缺陷 而 提出 来 的 。 这 种 缺陷 表现 在 : 如 果 
对 一 个 仅 有 细小 连接 的 目标 图 像 进行 腐蚀 处 理 ， 当 腐蚀 深度 达到 一 定 的 深度 时 ， 连 接 两 部 分 的 
狭 窗 连 接 就 会 被 腐蚀 掉 。 原 本 属于 同一 目标 的 部 分 就 会 被 分 解 为 两 个 独立 的 部 分 。 为 了 保持 原 
有 图 像 的 连通 性 。 可 以 对 腐蚀 运算 做 如 下 的 改进 : 在 进行 腐蚀 运算 时 ， 并 不 直接 消除 竺 剥离 像 
素 ， 而 是 先 判 断 如 此 处 理 后 是 否 会 改变 原 图 像 的 连通 性 ， 如 果 不 改变 ， 则 按 原 腐蚀 方法 腐蚀 掉 ; 
如 果 改 变 其 连通 性 ， 那 么 就 要 对 其 保留 。 而 这 种 改进 后 的 腐蚀 运算 就 串 作 细 化 ， 根据 这 种 定义 ， 
细 化 处 理 实际 上 是 一 种 保持 了 原 图 像 连 通 性 的 腐蚀 运算 。 

集合 4 使 用 结构 元 素 B 进行 细 化 ， 可 用 4@B 表示 。 细 化 过 程 可 以 根据 击 中 / 击 不 中 变换 定 
义 为 



























































































































































A®B =A- (4B) =4n(4GB) (3-29) 
这 里 仅 讨 论 用 结构 元 素 进行 模式 匹配 ， 故 在 击 中 / 击 不 中 变 0 相应 地 ， 
对 于 集合 4 的 细 化 更 为 有 效 的 一 种 表达 方式 是 基于 一 组 结构 元 素 序 列 ， 时 


1B} =|B',B ,BP ,.…,B"| (3-30) 
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式 中 ，B' 是 下 旋转 后 的 形式 。 由 此 细 化 可 以 用 结构 元 素 序 列 定义 为 
4Q@181 = ((((4QB ) OP )…)QB ) (3-31) 


也 就 是 说 ， 这 个 处 理 过 程 先 使 用 B' 对 4 进行 细 化 ， 然 后 使 用 B* 对 上 一 步 的 细 化 结果 再 进行 细 
化 ，……… ， 如 此 重复 进行 ， 直 到 得 到 的 结果 不 再 发 生变 化 为 止 。 每 遍 独立 的 细 化 过 程 均 按照 
式 (3-31) 执行 。 
图 3-25 所 示 为 使 用 结构 元 素 序列 | B| 对 图 像 集合 4 进行 细 化 的 过 程 。 其 中 图 3-25a 所 示 为 
组 用 于 细 化 的 结构 元 素 序列 ， 图 3-25b 所 示 为 待 细 化 的 图 像 集合 4; 图 3-25c 所 示 为 用 已 对 4 
进行 一 遍 扫描 得 到 的 细 化 结果 ; 图 3-25d ~ 图 3-25i 所 示 为 使 用 其 他 结构 元 素 依次 细 化 后 的 结果 图 像 
(使 用 结构 元 素 B ”和 B" 没有 区 别 ) ; 图 3-25j 所 示 为 再 次 使 用 前 3 个 结构 元 素 得 到 的 结果 ; 图 3-25k 


所 示 为 收敛 后 的 结果 ; 将 细 化 结果 转换 成 混合 连通 以 消除 图 3-25k 中 多 路 连通 的 结果 ， 如 图 3-251 
所 示 。 
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j) 48B1’23 























k) 4@B84 5 60.7,8,1,2,3 D) 转换 为 具有 m 连 通 度 的 结果 


图 3-25” 细 化 过 程 示意 图 
从 上 述 细 化 过 程 看 出 ， 图 像 集 合 4 细 化 的 过 程 具有 以 下 两 个 特点 。 
1) 在 细 化 过 程 中 ， 图 像 集合 4 有 规律 地 缩小 了 。 
2) 在 图 像 集合 4 逐步 缩小 的 过 程 中 ,4 的 连通 性 保持 不 变 
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3.3.5 粗 化 


与 细 化 对 腐蚀 处 理 的 改进 类 似 ， 粗 化 处 理 对 于 膨胀 在 处 理 邻近 目标 时 总 会 将 其 合并 的 缺点 
做 了 改进 。 改 进 后 的 粗 化 算法 可 以 用 紧 贴 的 边缘 来 拟 合 目 标 ， 从 而 避免 了 膨胀 对 其 进行 的 错误 
合并 。 此 外 ， 通 常情 况 下 紧 贴 目标 的 边缘 往往 不 利于 后 续 的 测量 处 理 ， 粗 化 可 以 在 不 合并 彼此 相 
互 分 离 的 物体 的 前 提 下 ， 适 当 对 目标 图 像 的 边缘 进行 扩展 ， 以 在 一 定 程度 上 弥补 这 种 不 足 。 

粗 化 (Thickening) 和 细 化 在 形态 学 上 是 对 偶 的 过 程 ， 其 定义 为 

AOB=AU (AB) (3-32) 
式 中 , B 是 适当 的 结构 元 素 。 如 同 细 化 的 定义 一 样 ， 粗 化 处 理 过 程 仍 可 用 一 结构 元 素 序 列 定 
义 ， 即 
































4O1B1 =((:…((A0B') OB ):…) OP") (3-33) 

用 于 粗 化 的 结构 元 素 和 用 于 细 化 的 结构 

元 素 应 具有 相同 的 形式 ， 只 是 所 有 的 1 和 0 
的 位 置 要 互 换 。 然 而 ， 实 际 应 用 中 ， 粗 化 算 
法 很 少 用 到 。 取 而 代 之 的 是 ， 先 细 化 所 讨论 
集合 的 背景 ， 然 后 对 细 化 的 结果 求 补 集 。 
换 名 话说， 为 了 对 集合 4 进行 粗 化 ， 可 先 
令 C=4 ,然后 对 C 进行 细 化 ， 最 后 再 对 细 
化 的 结果 求 补 集 。 
图 3-26 所 示 为 细 化 处 理 过 程 。 其 中 ， 

图 3-26a 所 示 为 待 进行 粗 化 运算 的 集合 4; 
图 3-26b 所 示 为 C=A*; 图 3-26c 所 示 为 对 C 
的 细 化 结果 ; 图 3-26d 所 示 为 对 图 3-26c 的 
结果 求 补 运算 得 到 的 结果 ， 同 时 可 以 看 到 ， 
在 这 个 过 程 中 产生 了 不 连贯 的 点 ， 因 此 ， 用 
这 种 方法 粗 化 通常 要 进行 一 个 简单 的 后 处 理 
步骤 来 清除 不 连贯 的 点 。 图 3-26e 所 示 为 去 除 不 连贯 的 点 后 得 到 的 最 终 粗 化 结果 。 


3.3.6 形态 滤波 


通常 在 图 像 预 处 理 中 ， 对 图 像 中 的 噪声 进行 滤 除 是 不 可 缺少 的 操作 。 对 于 二 值 图 像 ， 噪 声 表 
现 为 背景 噪声 (目标 周围 的 噪声 ) 和 前 景 噪声 〈 目标 内 部 的 噪声 ) 。 由 前 面 的 内 容 可 知 ， 形 态 开 
运算 和 闭 运 算 被 作为 最 基本 的 形态 滤波 运算 ， 开 运算 可 以 消除 图 像 中 比 结构 元 素 小 的 颗粒 噪声 ， 
闭 运算 可 以 填充 比 结构 元 素 小 的 孔洞 。 但 在 实际 的 图 像 处 理 中 ， 仪 仅 采 用 形态 开 和 闭 的 滤波 效 
果 往 往 不 能 令 人 满意 。 此 时 就 需要 在 基本 的 形态 开 、 闭 运算 的 基础 上 设计 出 形态 开 一 闭 和 形态 
闭 一 开 组 合 滤波 器 ， 以 便 发 挥 其 更 好 的 滤波 性 能 。 

形态 开 一 财运 算 定义 为 






































































































































图 3-26 粗 化 过 程 示意 图 







































































(4A°B) .B=|{[ (4OB)®B]OBIOB (3-34) 
形态 财 一 开 运 算 定义 为 
(A:B)°B=|[(4A®B)OB]OBIOB (3-35) 
图 3-27 所 示 为 用 圆 形 结构 元 素 对 含有 前 景 噪声 和 背景 噪声 的 二 值 图 像 进 行 形态 开 一 闭 滤波 
的 示例 。 图 3-27a 所 示 为 含 噪声 的 原 图 像 ， 噪 声 表 现 为 目标 内 部 的 白色 噪声 和 目标 周围 的 黑色 噪 
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声 ; 图 3-27b 所 示 为 用 圆 形 结构 元 素 对 含 噪 图 像 进行 开 运 算 的 结果 ， 可 以 看 到 目标 内 部 的 噪声 被 
消除 ;图 3-27c 所 示 为 进一步 用 圆 形 结构 元 素 进行 财运 算 的 结果 ， 可 以 看 到 目标 外 部 的 噪声 也 被 
消除 ， 即 通过 形态 开 一 闭 滤 波 ， 原 图 像 中 存在 的 前 景 和 背景 噪声 均 被 有 效 地 消除 了 。 
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a) 原 图 像 b) 对 图 89) 进行 开 运 算 的 结果 o) 形态 开 一 闭 滤波 结果 
图 3-27 形态 开 一 闭 滤波 示例 


在 形态 学 滤波 中 ， 结 构 元 素 的 选取 十 分 重要 。 由 式 (3-34) 可 知 ， 为 了 有 效 地 消除 图 像 中 存 
在 的 前 景 噪声 和 背景 噪声 ， 所 选取 的 结构 元 素 的 大 小 应 比 这 两 种 噪声 的 形状 都 要 大 。 


3.4 灰 度 形态 学 基本 运算 


灰 度 形态 学 是 二 值 形 态 学 向 灰 度 空间 的 自然 扩展 ， 也 包括 膨胀 、 腐 蚀 、 开 运算 和 闭 运算 等 基本 
运算 。 对 应 于 二 值 形态 学 中 的 目标 图 像 4 和 结构 元 素 B， 在 灰 度 形态 学 中 分 别 用 图 像 函 数 /(x，y) 
和 5(x，y) 表示 输入 图 像 和 结构 元 素 。5b(x，y) 本 身 是 一 个 子 图 像 函 数 ，(x*，y) 表示 图 像 中 像素 
点 的 坐标 。 二 值 形 态 学 中 用 到 的 求 交 和 求 并 运算 在 灰 度 形态 学 中 分 别 用 求 最 大 值 ( Maximum) 和 
求 最 小 值 (Minimum) 的 运算 来 代替 。 在 下 面 的 描述 中 使 用 f 和 5 来 对 f(x, y) 和 6(x,y) 进行 
缩写 表示 。 


3.4.1 灰 度 腐蚀 


在 灰 度 图 像 中 ， 用 结构 元 素 5(x,，y) 对 输入 图 像 Ax，y) 进行 灰 度 腐蚀 运算 可 表示 为 
(fOL) (si =min{f(s +x,t +y) —b(x,y)I(s+x,t +y) eD,;(%,y) eD,| (3-36) 

式 中 , 六 和 D, 分 别 是 f(x,，y) 和 b(x，y) 的 定义 域 。 要求 x 和 y 必须 在 结构 元 素 5b(x,，y) 的 定义 
域 之 内 ， 而 平移 参数 (s+x) 和 (t+y) 必须 在 f(x，y) 的 定义 域 之 内 ， 这 与 在 二 值 形态 学 腐蚀 运 
算 定 义 中 要 求 结构 元 素 必须 完全 包含 在 被 腐蚀 图 像 中 的 情况 类 似 。 但 要 注意 的 是 , 式 (3-36) 与 二 
值 图 像 的 腐蚀 运算 的 不 同 之 处 是 ， 被 平移 的 对 象 是 输入 图 像 f(x，y) ， 而 不 是 结构 元 素 5(x，y)。 
式 (3-36) 与 二 维 卷 积 运算 很 类 似 ， 只 不 过 是 用 求 最 小 值 运算 代替 了 相关 运算 中 的 求 和 或 积分 ) ， 
用 减法 运算 代替 了 相关 运算 中 的 乘积 ， 结 构 元 素 可 看 成 卷 积 运算 中 的 “滤波 窗口 ”。 

由 式 (3-36) 可 知 ， 灰 度 腐 蚀 运算 的 计算 是 逐 点 进行 的 ， 求 某 点 的 腐蚀 运算 结果 就 是 计算 该 
点 局 部 范围 内 各 点 与 结构 元 素 中 对 应 点 的 灰 度 值 之 差 ， 并 选取 其 中 的 最 小 值 作为 该 点 的 腐蚀 结 
果 。 经 腐蚀 运算 后 ， 图 像 边缘 部 分 具有 较 大 灰 度 值 的 点 的 灰 度 会 降低 ， 因 此 ， 边 缘 会 向 灰 度 值 高 
的 区 域内 部 收缩 。 

为 了 便于 理解 和 分 析 灰 度 腐 蚀 运算 的 原理 和 效果 ， 可 将 式 (3-36) 进一步 简化 为 一 维 函 数 形 
式 ， 即 


















































































































































(fOL)(s) =min{f(s +x) -pz)1CS+x) eD,; xeD,| (3-37) 
如 同 在 相关 运算 中 ， 当 ; 为 正 时 ， 函 数 /(s+x) 相对 于 f(x) 将 向 左 平移 ， 当 ; 为 负 时 ， 函 
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数 f(s+x) 相对 于 f(x) 将 向 右 平 移 。 同 时 ,为 了 把 b(x) 完全 包含 在 f(x) 的 平移 范围 内 ， 要 求 
(s+x) 必须 在 f(x) 的 定义 域 ,内 ,x 的 值 必须 在 5(x) 的 定义 域 Dp, 内 。 

图 3-28 所 示 为 输入 图 像 和 结构 元 素 均 为 一 维 函 数 时 腐蚀 运算 的 过 程 示 意图 。 其 中 ， 图 3-28a 
所 示 为 输入 图 像 Kx) ; 图 3-28b 所 示 为 一 维 圆 形 结构 元 素 5(x); 图 3-28d 中 的 实 线 为 腐蚀 后 的 
运算 结果 。 
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图 3-28 灰 度 腐蚀 运算 过 程 示意 图 

利用 结构 元 素 b(x) 对 输入 图 像 f(x) 的 腐蚀 过 程 是 : 在 输入 图 像 的 下 方 “ 滑 动 ” 结 构 元 
素 ， 结 构 元 素 所 能 达到 的 最 大 值 所 对 应 的 原点 位 置 的 集合 即 为 腐蚀 的 结果 。 这 与 二 值 腐蚀 运算 
为 结构 元 素 “ 填 充 ” 到 输入 图 像 中 对 应 的 结构 元 素 的 原点 的 集合 是 相似 的 。 从 图 3-28c 中 还 可 以 
看 到 结构 元 素 5(x) 必须 在 输入 图 像 fx) 的 下 方 ， 所 以 空间 平移 结构 元 素 的 定义 域 必 为 输入 图 
像 函 数 的 定义 域 的 子 集 。 否 则 腐蚀 运算 在 该 点 没有 意义 。 

由 于 腐蚀 运算 是 以 在 结构 元 素 形状 定义 的 区 间 内 选取 f(s +x,，t+y) -5(x, y) 的 最 小 值 为 
基础 的 ， 因 此 ， 灰 度 腐蚀 运算 的 效果 如 下 。 

1) 对 于 所 有 元 素 都 为 正 的 结构 元 素 ， 则 输出 图 像 会 比 输入 图 像 暗 。 

2) 当 输 入 图 像 中 的 亮 细节 的 结构 尺寸 小 于 结构 元 素 时 ， 则 亮 的 效果 将 被 削弱 ， 削 弱 的 程度 
取决 于 亮 细节 周围 的 灰 度 值 和 结构 元 素 自身 的 形状 与 幅 值 。 


3.4.2 灰 度 膨胀 


灰 度 膨胀 是 灰 度 腐蚀 的 对 偶 运 算 ， 用 结构 元 素 5(x，y) 对 输入 图 像 f(x，y) 进行 的 灰 度 膨 
上 胀 运算 可 表示 为 /0 ， 其 定义 为 
(jb (st) =max {f(s —x,t—y) +b(x,y)|I(s—x,t—y) eD,;(%x,y) eD,| (3-38) 
式 中 ,D, 和 D, 分 别 是 f(x, y) 和 6b(x,，y) 的 定义 域 。 与 二 值 形态 学 膨胀 运算 定义 中 的 要 求 一 
样 ,，x 和 yy 必须 在 结构 元 素 5(x,，y) 的 定义 域 之 内 ， 而 平移 参数 (s -x) 和 (1 -y) 必须 在 
f(x,，y) 的 定义 域 之 内 。 但 需要 注意 的 是 ,与 二 值 膨胀 运算 不 同 的 是 ， 在 这 里 被 平移 的 对 象 是 输 
和 人 图像 x，y) 而 不 是 结构 元 素 5(x, y)。 式 (3-38) 类 似 二 维 卷 积 运算 ， 只 不 过 用 求 最 大 值 代 
替 了 卷 积 求 和 (或 积分 ) ， 并 以 相 加 代替 了 卷 积 中 的 相 乘 。 
灰 度 膨胀 运算 的 计算 是 逐 点 进行 的 ， 求 某 点 的 膨胀 运算 结果 就 是 计算 该 点 局 部 范围 内 各 点 
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与 结构 元 素 中 对 应 点 的 灰 度 值 之 和 ， 并 选取 其 中 的 最 大 值 作为 该 点 的 膨胀 结果 。 经 过 膨胀 运算 
后 ， 边 缘 得 到 了 延伸 。 
为 了 便于 对 灰 度 膨 胀 运算 原理 的 理解 和 分 析 ， 可 将 式 (3-38) 进一步 简化 为 一 维 函 数 形式 ， 即 







































































(fDL)(s) =maxlAs-x) +b(x)1(s-x) eD,;xeD,| (3-39) 
如 同 在 相关 运算 中 , f( -x) 是 f(x) 关于 x 轴 原 点 的 映射 ， 且 当 * 为 正 时 ， 函 数 fs -x) 将 向 右 


平移 ， 当 ; 为 负 时 ， 函 数 所 ss -x) 将 向 左 平移 。 同 时 ,为 了 把 6(x) 完全 包含 在 f(x) 的 平移 范围 
内 ， 要 求 (s -x) 必须 在 f(x) 的 定义 域 六 内 ， x 的 值 必须 在 6(x) 的 定义 域 p, 内 。 

从 概念 上 讲 ， 在 膨胀 运算 中 , f(x, y) 和 6b(x, y) 是 可 以 互 换 的 ， 也 就 是 说 ，5@f 与 1b 的 
结果 是 一 样 的 。 但 要 注意 的 是 ， 腐 蚀 运 算是 不 可 交换 的 。 
图 3-29 所 示 为 输入 图 像 和 结构 元 素 均 为 一 维 函 数 时 膨胀 运算 的 过 程 示意 图 。 其 中 ， 图 3-29a 所 
示 为 输入 图 像 A x) ; 图 3-29b 所 示 为 一 维 圆 形 结构 元 素 5(x) ; 图 3-29c 所 示 为 膨胀 运算 的 过 程 示 
意图 ; 图 3-29d 中 的 实 线 为 膨胀 后 的 运算 结果 。 
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图 3-29 灰 度 膨胀 运算 过 程 示 意图 
采用 结构 元 素 5(x) 对 输入 图 像 f(x) 进行 膨胀 的 过 程 是 : 将 结构 元 素 的 原点 平移 到 输入 图 
像 曲线 上 ， 使 原点 沿 着 输入 图 像 曲线 “滑动 "， 膨 胀 的 结果 为 输入 图 像 曲线 与 结构 元 素 之 和 的 最 
大 值 。 这 与 二 值 膨胀 运算 中 ， 结 构 元 素平 移 通 过 二 值 图 像 中 的 每 一 点 .并 求 结构 元 素 与 二 值 图 像 
的 并 是 相似 的 。 
由 于 膨胀 运算 是 以 在 结构 元 素 形状 定义 的 区 间 内 选取 /f(s -x, 1-y) +5(x,，y) 的 最 大 值 为 
基础 的 ， 因 此 ， 灰 度 膨胀 运算 的 效果 如 下 。 
1) 对 于 所 有 元 素 都 为 正 的 结构 元 素 ， 输 出 图 像 会 比 输入 图 像 亮 。 
2) 当 输 入 图 像 中 的 暗 细节 面积 小 于 结构 元 素 时 ， 暗 的 效果 将 被 削弱 ， 削 弱 的 程度 取决 于 膨 
胀 所 用 结构 元 素 的 形状 与 幅 值 。 
灰 度 腐蚀 和 灰 度 膨胀 之 间 的 对 偶 关 系 ， 可 以 用 式 (3-40) 和 式 (3-41) 来 描述 ， 即 
(fOL) 00 = (f° DB) (3,1) (3-40) 
(JDL) Gs,1) = (GD (3,1) (3-41) 
式 中 , 广 = -f(x, y); b=b( -x, -y)。 
图 3-30 所 示 为 用 半径 为 3 的 球形 结构 元 素 对 一 幅 灰 度 图 像 进 行 腐蚀 、 膨 胀 运算 的 示例 ， 从 
图 中 可 以 清楚 地 看 到 上 述 的 效果 。 图 3-30b 所 示 为 对 输入 图 像 进行 腐蚀 的 结果 ， 腐 蚀 后 的 图 像 显 
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得 更 暗 ， 并 且 扩 二 小 、 明 亮 的 细节 部 分 〈 比 如 相机 的 支架 ) 被 削弱 了 。 图 3-30c 所 示 为 对 输入 图 
像 进行 膨胀 的 结果 ， 膨 胀 后 得 到 的 图 像 比 原 图 像 更 明亮 ， 并 且 削弱 了 小 的 、 暗 的 细节 部 分 〈 比 
如 ， 相 机 以 及 下 面 支架 的 黑色 部 分 ) 。 


























b) 腐蚀 后 的 结果 图 像 c) 膨胀 后 的 结果 图 像 
图 3-30 灰 度 腐蚀 与 膨胀 效果 对 比 


a) 输入 图 像 








3.4.3 ” 灰 度 开 运 算 与 闭 运算 


在 定义 了 灰 度 腐蚀 和 灰 度 膨胀 运算 的 基础 上 ， 可 以 进一步 定义 灰 度 开 运 算 和 灰 度 闭 运算 。 
灰 度 形态 学 中 关于 开 运 算 、 闭 运算 的 表达 与 它们 在 二 值 形态 学 中 的 对 应 运算 是 一 致 的 。 

1. 灰 度 开 运 算 

用 灰 度 结构 元 素 对 灰 度 输入 图 像 f 进行 开 运算 ,表示 为 fo5， 其 定义 为 

f°b=(fOb) DL (3-42) 

开 运 算 的 简单 几何 解释 如 图 3-31 所 示 。 假 设 在 三 维 透视 空间 中 观察 一 个 图 像 函 数 f(x，y) (类 
似 于 地 形 图 )，x 轴 和 yy 轴 是 通常 意义 上 的 空间 坐标 ,第 3 个 轴 是 灰 度 值 。 图 像 呈 现 不 连续 曲面 
的 形态 ， 图 像 中 任意 点 (x，y) 的 灰 度 值 是 曲面 上 这 个 坐标 的 f 值 。 图 3-31a 所 示 为 灰 度 图 像 函 数 
f(x，y) 当 y 为 某 一 常数 时 对 应 的 一 个 训 面 f(x)， 其 形状 象 一 连 串 的 山峰 山谷 。 假 设 结构 元 素 5 
是 球状 的 ， 投 影 到 x 和 f(x) 平面 上 是 个 圆 ， 用 结构 元 素 5b 对 灰 度 图 像 f 进行 开 运算 (feb) 的 过 
程 可 看 作 是 将 45 贴 着 灰 度 图 像 f 的 下 沿 从 一 端 深 到 男 一 端 ， 如 图 3-31b 所 示 。 当 。 深 过 f 的 整个 下 
侧面 时 ， 由 接触 到 曲面 的 5 
的 任何 部 分 的 最 高 点 构成 的 
集合 即 为 开 运 算 的 结果 ， 如 
图 3-31c 所 示 。 由 此 可 以 看 
出 , f 中 所 有 比 结构 元 素 6 
的 直径 小 的 山峰 均 被 前 除 
了 。 换 句 话说 ， 当 b 贴 着 了 a) ) 为 某 常 数 时 的 输入 图 像 函数 剖面 b) 结构 元 素 在 输入 图 像 函数 的 下 方 滚动 




















































































































的 下 沿 滚动 时 , /中 没有 与 jh 
接触 的 部 位 都 削减 到 与 
接触 。 fob 

在 实际 应 用 中 ， 常 用 开 
运算 操作 来 消除 相对 于 结构 
元 素 尺寸 较 小 的 亮 细节 ， 同 下 
时 保持 图 像 整体 灰 度 值 和 较 o) 开 运算 结果 
大 的 亮 区 域 基本 不 受 影响 。 图 3-31 ， 灰 度 开 运 算 原 理 示意 图 
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具体 地 说 ， 先 进行 腐蚀 操作 可 以 去 除 小 的 亮 细 节 ， 但 这 样 做 会 使 图 像 变 暗 ; 接 下 来 进行 膨胀 操作 
又 会 增强 图 像 的 整体 亮度 ,但 不 会 将 腐蚀 操作 除去 的 部 分 重新 引入 图 像 中 。 

2. 灰 度 闭 运算 

用 灰 度 结构 元 素 b 对 灰 度 输入 图 像 f 进行 闭 运算 ,表示 为 /+ 5b，， 其 定义 为 

/+b=(/®D5) Ob (3-43) 

闭 运算 的 简单 几何 /0 
解释 如 图 3- 32 所 示 。 jo 
其 中 ， 图 3-32a 所 示 为 
灰 度 图 像 函 数 /(x，y) J 
当 y 为 某 一 常数 时 对 应 区 WY (2) 
的 一 个 剖面 f(x); 用 球 V 
形 结构 元 素 5 对 灰 度 图 a) ) 为 某 常 数 时 的 输入 图 像 函数 剖面。 划 结 构 元 素 在 输入 图 像 函数 的 上 方 滚动 
像 /进行 闭 运 算 ， 即 广 . 
b 的 过 程 可 看 作 是 将 4 
贴 着 灰 度 图 像 f 的 上 沿 f°b 
从 一 端 滚 到 另 一 端 ， 如 
图 3-32b 所 示 ; 在 每 一 
点 记录 结构 元 素 上 的 最 
低 点 ， 则 由 这 些 最 低 点 T 
构成 的 集合 即 为 闭 运算 ee 
的 结果 ， 如 图 3-32c 所 图 3-32 灰 度 闭 运算 原理 示意 图 
示 。 由 此 可 以 看 出 ， 山 峰 基 本 没有 变化 ， 而 了 中 所 有 比 结构 元 素 的 直径 小 的 山谷 得 到 了 “填充 ”。 
换 句 话说 ， 当 必 贴 着 了 的 上 沿 滚动 时 ,， 太 中 没有 与 接触 的 部 位 都 得 到 “填充 ”， 使 其 与 接触 。 

在 实际 应 用 中 ， 常 用 闭 运 算 操 作 来 消除 相对 于 结构 元 素 尺 寸 较 小 的 暗 细 节 ， 而 相对 地 保持 
图 像 整体 灰 度 值 和 明亮 部 分 不 受 影 响 。 具 体 说 来 ， 先 通过 膨胀 除去 图 像 中 的 暗 细节 ， 同 时 增加 图 
像 的 亮度 ; 接 下 来 进行 腐蚀 运算 又 会 减弱 图 像 的 整体 亮度 ,但 又 不 会 将 膨胀 操作 除去 的 部 分 重 
新 引入 图 像 中 。 

3. 灰 度 开 运 算 和 闭 运算 的 对 偶 性 

与 灰 度 膨胀 和 灰 度 腐蚀 的 关系 类 似 ， 灰 度 图 像 的 开 运 算 和 闭 运 算 对 于 求 补 和 映射 运算 是 对 
偶 的 ， 可 表示 为 
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(f+ 5)° =/°°) (3-44) 
(fob)°=f° :6 (3-45) 


3.5 灰 度 图 像 的 形态 学 处 理 

在 介绍 了 灰 度 形态 学 的 4 种 基本 运算 以 后 ， 我 们 可 以 通过 对 这 些 基 本 运算 的 组 合 得 到 一 些 灰 
度 形态 学 的 实用 算法 ， 如 形态 学 梯度 、 形 态 学 平滑 滤波 、 高 帽 〈 Top-hat ) 变换 等 。 
3.5.1 形态 学 梯度 


形态 学 梯度 能 够 增强 图 像 中 比较 尖锐 的 灰 度 过 渡 区 。 在 图 像 处 理 中 ， 对 边缘 的 提取 检测 是 
很 有 必要 的 一 个 步骤 。 对 二 值 图 像 而 言 ， 边 缘 提 取 是 对 图 像 进行 边界 检测 ， 而 在 灰 度 图 像 中 ， 由 
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四 ) 数字 图 像 与 视频 处 理 


图 像 中 边缘 附近 的 灰 度 分 布 具 有 较 大 的 梯度 ， 因 而 ， 可 以 利用 求 图 像 的 形态 学 梯度 来 提取 图 
的 边缘 。 与 二 值 图 像 的 形态 :学 梯度 的 定义 类 似 ， 将 灰 度 腐蚀 和 灰 度 膨胀 运算 相 结 合 可 以 用 于 
计算 灰 度 图 像 的 形态 学 梯度 。 

设 灰 度 图 像 的 形态 0 则 其 定义 为 

= (fD2L) - (1O02) (3-46) 

图 像 处 理 中 有 多 种 空间 梯度 算 子 ， be Sobel 算 子 和 Prewitt 算 子 等 ， 它 们 都 是 利 
用 计算 局 部 差分 近似 代替 微分 来 取 图 像 的 梯度 值 ， 这 些 算 法 对 噪声 都 比较 敏感 ， 并 且 在 处 理 过 
ee 形态 学 梯度 与 之 相 比 ， 虽 然 也 对 噪声 比较 敏感 ， 但 不 会 加 强 或 放大 噪 
， 使 用 对 称 的 结构 元 素来 求 图 像 的 形态 学 梯度 ， 还 可 以 使 求 得 的 边缘 受 方 向 的 影响 较 小 。 


3.5.2 形态 学 平滑 滤波 


在 图 像 预 处 理 中 ， 对 图 像 中 的 品 声 进行 滤 除 是 必 不 可 少 的 操作 。 灰 度 图 像 中 利用 形态 学 平 
滑 滤 波 的 目的 就 是 去 除 或 减弱 亮 区 和 暗 区 的 各 类 噪声 。 由 灰 度 开 运 算 和 闭 运 算 的 特点 可 以 知道 ， 
灰 度 开 运算 是 去 除 相 对 于 结构 元 素 较 小 的 明亮 细节 ; 而 灰 度 ee ed 
但 在 实际 的 图 像 处理 中 ， 仅 仅 采 用 灰 度 开 运算 或 财运 算 的 滤波 效果 往往 不 能 令 人 满意 。 此 时 就 
需要 在 基本 的 灰 度 开 、 闭 运算 的 基础 上 设计 出 形态 开 一 闭 和 形态 闭 一 开 组 合 江波 器 ， 以 便 发 挥 
其 更 好 的 滤波 性 能 。 

形态 开 一 闭 运 算 定 义 为 
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(fb) :b=1[(fO2) O21 Oo OL (3-47) 
形态 闭 一 开 运 算 定 义 为 
(f* 5)°b=1[(f®2) OOL OL (3-48) 


3.5.3 ”高 帽 变换 

高 帽 (Top-hat) 变换 是 一 种 非常 有 效 的 形态 学 变换 ， 因 其 使 用 类 似 高 帽 形状 的 结构 元 素 进 

了 形态 学 图 像 处 理 而 得 和 名。 对 图 像 进行 的 形态 学 Top-hat 变换 定义 为 

h=f- (f°5) (3-49) 

由 于 开 运 算 具 有 非 扩 展 性 ， 在 处 理 过 程 中 结构 元 素 始终 处 于 图 像 的 下 方 ， 因 此 变换 的 结果 
是 非 负 的 。 这 种 变换 可 以 检测 出 图 像 中 较 尖 锐 的 波峰 。 我 们 可 以 利用 这 一 点 ， 从 较 暗 且 平滑 的 背 
景 中 提取 出 较 亮 的 细节 ， 如 增强 图 像 阴影 部 分 的 细节 ， 对 灰 度 图 像 进行 物体 分 割 ， 检 测 灰 度 图 像 
中 波峰 和 波 谷 及 细 长 图 像 等 。 























3.6 MATLAB 编程 实例 


3.6.1 MATLAB 中 形态 学 基本 运算 子 数 


1. 创建 结构 元 素 函 数 strel 
strel 函数 用 于 创建 结构 元 素 。 该 函数 的 语法 格式 如 下 。 
SE = strel( shape, parameters) 


说 明 如 下 。 
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参数 shape 用 于 指定 结构 元 素 的 形状 ; 参数 parameters 用 于 指定 结构 元 素 形 状 的 参数 ， 如 指 
定 结构 元 素 的 大 小 。 
2. 膨胀 运算 函数 imdilate 
imdilate 函数 用 来 实现 图 像 的 膨胀 运算 。 该 函数 的 语法 格式 如 下 。 
IM2 = imdilate( IM, SE) 
IM2 = imdilate( IM, NHOOD) 
IM2 = imdilate(*…, PADOPT) 
说 明 如 下 。 
IM2 = imdilate(IM, SE) 用 于 对 输入 图 像 IM 用 结构 元 素 SE 进行 膨胀 运算 ，IM 可 以 是 灰 度 
图 像 、 二 值 图 像 或 打包 的 二 值 图 像 ; 
IM2 = imdilate(IM, NHOOD) 用 于 对 输入 图 像 IM 进行 膨胀 运算 ， 其 中 的 NHOOD 是 一 个 包 
含 0 和 1 的 和 矩阵， 定义 了 结构 元 素 的 邻 域 ; 
IM2 = imdilate(…, PADOPT) 用 于 指定 输出 图 像 的 大 小 ， 其 中 参数 PADOPT 的 默认 值 为 
'same' ， 表 示 输 出 图 像 和 输入 图 像 大 小 相同 ， 如 果 参 数 PADOPT 的 值 为 'ful' ， 则 计算 完全 膨胀 。 
3. 腐蚀 运算 函数 imerode 
imerode 函数 用 来 实现 图 像 的 腐蚀 运算 。 该 函数 的 语法 格式 如 下 。 
IM2 = imerode( IM, SE) 
IM2 = imerode( IM, NHOOD) 
IM2 = imerode(IM, SE, PACKOPT, M) 


IM2 = imerode( IM, NHOOD, PACKOPT, M) 
IM2 = imerode(…，PADOPT ) 


说 明 如 下 。 
IM2 = imerode(IM, SE) 用 于 对 图 像 IM 用 结构 元 素 SE 进行 腐蚀 运算 ，IM 可 以 是 灰 度 图 像 、 
二 值 图像 或 打包 的 二 值 图像 ; 
IM2 = imerode(IM, NHOOD) 用 于 对 图 像 IM 进行 腐蚀 运算 ， 其 中 的 NHOOD 是 一 个 包含 0 和 
1 的 和 矩阵， 定义 了 结构 元 素 的 邻 域 ; 
IM2 = imerode (IM, SE, PACKOPT, M) 或 imerode (IM, NHOOD, PACKOPT, M) 用 于 指明 
IM 是 否 为 打包 的 二 值 图 像 ， 如 果 是 打包 的 二 值 图 像 ， 则 M 给 出 了 原始 未 打包 的 二 值 图 像 的 行 维 
数 ， 如 果 PACKOPT 的 取 值 为 'ispacked' ， 则 用 户 必须 指定 M 的 值 ; 
IM2 = imerode(…, PADOPT) 用 于 指定 输出 图 像 的 大 小 。 
4. 开 运算 函数 imopen 
imopen 函数 用 来 实现 图 像 的 开 运算 。 该 函数 的 语法 格式 如 下 。 
IM2 = imopen( IM, SE) 
IM2 = imopen( IM, NHOOD) 
说 明 如 下 。 
IM2 = imopen(IM, SE) 用 于 用 结构 元 素 SE 对 灰 度 图 像 或 二 值 图 像 IM 执行 开 运 算 ，; 
IM2 = imopen(IM，NHOOD) 用 于 对 图 像 IM 执行 开 运 算 ，NHOOD 是 一 个 包含 0 和 1 的 矩 
阵 ， 定 义 了 开 运 算 所 用 的 结构 元 素 。 
5. 闭 运算 函数 imclose 
imclose 函数 用 来 实现 图 像 的 财运 算 。 该 函数 的 语法 格式 如 下 。 
IM2 = imclose( IM, SE) 
IM2 = imclose( IM, NHOOD) 
说 明 如 下 。 
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IM2 = imclose(IM, SE) 用 于 用 结构 元 素 SE 对 灰 度 图 像 或 二 值 图 像 IM 执行 闭 运算 。 
IM2 = imclose(IM, NHOO0D) 用 于 对 图 像 IM 执行 闭 运算 ， NHOOD 是 一 个 包含 0 和 1 的 矩 
阵 ， 定 义 了 开 运 算 所 用 的 结构 元 素 。 
6. 二 值 形 态 学 处 理 函 数 bwmorph 
bwmorph 函数 可 执行 多 种 二 值 形 态 学 运算 ， 其 语法 格式 如 下 : 
BW2 = bwmorph(BW ，operation ) 
BW2 = bwmorph( BW, operation, n) 
说 明 如 下 。 
BW2 = bwmorph( BW ,operation) 用 于 用 指定 的 形态 学 运算 operation 对 二 值 图 像 BW 进行 处 理 ; 
BW2 = bwmorph( BW ,operation, n) 用 于 执行 n 次 operation 运算 ，n 可 以 是 无 穷 大 ， 此 时 运 
算 operation 作用 到 BW 上 ， 直到 结果 不 再 发 生变 化 为 止 。 
二 值 形 态 学 人 处理 函数 bwmorph 中 参数 operation 的 说 明 如 表 3-1 所 示 。 


表 3-1 参数 operation 的 说 明 


































































































operation 取 值 说 明 
bothat 执行 形态 学 低 帽 变换 ， 即 先 执行 闭 运算 ， 然 后 减 去 原 图 像 
桥接 不 相连 接 的 像素 ， 如 果 像素 有 两 个 不 为 零 的 邻 域 ， 则 设 该 像素 为 1， 如 
1 0 0 1 1 0 
bridge 
10 1 = 二 1 1 1 
0 0 1 0 1 1 
清除 孤立 的 点 ， 像 素 为 1、 周 围 邻 域 为 0 的 情况 
1 0 0 0 
clean 0 0 
0 0 0 
close 形态 学 闭 运算 
用 对 角 线 填充 来 消除 背景 的 8- 连 接 ， 如 
| 0 10 0 10 
diag 
10 0 => 1 1 0 
0 0 0 0 0 0 
dilate 用 结构 元 素 ones(3) 执行 膨胀 运算 
erode 用 结构 元 素 ones(3) 执行 腐蚀 运算 
填充 孤立 的 像素 点 ,像素 为 0、 周 围 邻 域 为 1 的 情况 
fill De 
1 0 1 
1 二 ' 了 1 
消除 也 连接 的 像素 ， 如 
1 1 1 1 1 1 
hbreak 
0 10 => 0 0 0 
1 开工 1 1 1 
majority 如 果 像 素 点 的 8- 邻 域 中 有 5 个 以 上 的 像素 点 为 1， 则 该 像素 点 为 1 
es 形态 学 开 运 算 
remove 去 掉 内 部 像素 点 ， 如 果 一 个 像素 的 4- 邻 域 像 素 为 1， 则 置 该 像素 为 0 
ee n 为 无 穷 大 ， 将 目标 收缩 成 点 ， 将 没有 孔洞 的 目标 收缩 成 一 个 点 ， 将 有 孔洞 的 目标 收缩 成 外 
层 边缘 ， 将 每 个 孔 之 间 收 缩 成 一 个 相连 的 环 
skel n 为 无 穷 大 ， 消 除 目 标 边缘 上 的 点 ， 但 不 使 目标 分 裂 ， 剩 下 的 像素 为 目标 的 骨架 
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5 态 学 图 区 小 理 图】 
( 续 ) 
operation 取 值 说 明 
去 掉 像 素 短 枝 ， 如 
0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 
0010 一 oo0o0 
0 1 0 0 0 1 0 0 
1 1 0 0 1 1 0 0 
thicken n 为 无 穷 大 ， 对 目标 进行 粗 化 
thin n 为 无 穷 大 ， 对 目标 进行 细 化 
tophat 执行 形态 学 高 帽 变换 ， 即 原 图 像 减 去 开 运 算 后 的 图 像 








3.6.2 编程 实例 


【 例 3-1】 请 编写 MATLAB 程序 ， 
解 : MATLAB 代码 如 下 。 
clear all 
% 读 入 及 显示 原始 图 像 
i= imread( 'picture. bmp' ); 
subplot(2,3,1); 
imshow(i) ; 
title( "原始 图 像 ' ) ; 
和 选取 结构 元 素 
se = strel( 'diamond', 1); 
% 腐蚀 运算 及 显示 腐蚀 后 的 图 像 
il = imerode(1，se) ; 
subplot(2,3 ,2) ; 
imshow (il ) ; 
title ( ' 腐 蚀 运 算 ' ) ; 
% 膨胀 运算 及 显示 膨胀 后 的 图 像 
12 =imdilate(i,se) ; 
subplot(2,3,3); 
imshow(i2 ) ; 
title ( "膨胀 运算 ' ) ; 
% 开 运 算 及 显示 开 运 算 后 的 图 像 
13 = imdilate(il,se) ; 
subplot(2,3 ,4) ; 
imshow(i3 ) ; 
title( ' 开 运算 ' ) ; 
% 闭 运算 及 显示 闭 运算 后 的 图 像 
这 = imerode( 122 ,se); 
subplot(2,3,5); 
imshow(14); 


title( ' 闭 运算 ' ) ; 









































【 例 3-2】 请 编写 MATLAB 程序 ， 实 现 对 原始 图 像 进行 边缘 提取 、 骨 架 扩 














解 : MATLAB 代码 如 下 。 
clear all 
% 读 入 及 显示 原始 图 像 
i= imread( 'picture. bmp ' ); 
subplot(2,3,1); 


imshow(i) ; 


实现 对 二 值 图 像 进行 腐蚀 、 膨 胀 、 开 、 闭 运算 。 


取 、 细 化 和 粗 化 运算 。 
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title( ' 原 始 图 像 ' ) ; 

% 对 原始 图 像 进行 边缘 提取 并 显示 结果 
il =bwmorph(1，'remove ' ); 
subplot(2,3 ,2 ) ; 

imshow (il ) ; 

title ( ' 边 缘 提取 ' ) ; 

% 对 原始 图 像 进行 骨架 抽取 并 显示 结果 
i2 =bwmorph (i, 'skel', inf); 
subplot(2,3,3); 

imshow(i2 ) ; 

title ( "骨架 抽取 ' ) ; 

% 对 原始 图 像 进行 细 化 并 显示 结 只 
13 = bwmorph (i, 'thin', inf); 
subplot(2,3 ,4) ; 

imshow(i3 ) ; 

title( " 细 化 " ) ; 

% 对 原始 图 像 进行 粗 化 并 显示 结果 
过 =bwmorph (i, 'thicken', inf); 
subplot(2,3,5); 

imshow(14); 

title( ' 粗 化 '); 











7 也 











【 例 3-3】 请 编写 MATLAB 程序 ， 实 现 图 像 的 形态 学 滤波 。 
解 : 用 MATLAB 实现 的 形态 学 滤波 的 程序 如 下 。 


clear all 

% 读 入 及 显示 原始 图 像 
f= imread( 'pict2. bmp' ) ; 
figure( 1); 

imshow(f); 

% 创建 strel 结构 元 素 

se = strel( 'disk' ,2) ; 

% 开 一 闭 运算 及 显示 结 
fl =imopen(f, se); 
f2=imclose(fl, se); 
figure(2); 

imshow( 人 2) ; 

和 闭 一 开 运算 及 显示 结果 


f3 = imclose(f，se ) ; 














分 = imopen( 他 ，se) : 
figure(3 ) ; 
imshow( 伍 ) ; 


小 结 





述 形 状 和 结构 的 有 力 工 具 。 











数学 形态 学 最 早起 源 于 对 岩 相 学 的 定量 描述 工作 ， 其 基本 有 思 
产生 了 重大 影响 ， 近 年 来 在 计算 机 文字 识别 、 计 算 机 显 微 








在 数字 图 像 和 分 析 处 理 过 程 中 ， 经 常 需要 提取 图 像 的 形状 和 结构 特征 。 而 数学 形态 学 是 描 


想 和 方法 对 图 像 处 理 的 理论 和 技术 
图 像 分 析 〈 如 定量 金 相 分 析 、 颗 粒 分 析 ) 、 





医学 图 像 处 理 (例如 细胞 检测 、 心 脏 的 运动 过 程 研究 ) 、 图 像 编 码 、 工 业 检 测 (如 印刷 电路 自动 检 
测 )、 计 算 机 视觉 、 汽 车 运动 情况 监测 等 诸多 领域 都 得 到 了 广泛 的 应 月 


形成 了 一 种 新 型 的 
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日 。 


山川 





图 像 处 理 方法 和 理论 ， 形 态 学 图 像 处 理 已 经 成 为 计算 机 数字 图 像 处 理 的 一 个 主要 
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研究 领域 。 利 用 数学 形态 学 方法 进行 图 像 处 理 ， 可 以 简化 图 像 运 算 ， 在 保持 图 像 基 本 形态 特征 的 同 
时 ， 去 除 不 相干 的 结构 ， 可 应 用 于 图 像 增 强 、 边 缘 检 测 、 图 像 分 割 、 形 状 识别 、 纹 理 分 析 、 特 征 提 
取 、 图 像 复原 、 图 像 重 建 以 及 图 像 压 缩 等 方面 。 而 且 数 学 形态 学 的 算法 具有 天 然 的 并 行 实现 的 结 





构 ， 能 大 大 地 提高 图 
形态 学 图 像 处 到 




















像 分 析 和 处 理 的 速度 。 














LE 就 是 利用 数学 形态 学 的 工具 从 图 像 中 提取 那些 用 于 表达 和 描绘 区 域 形状 的 








图 像 分 量 ， 如 边缘 、 骨 架 等 。 图 像 处 理 目 标的 不 同 主要 体现 在 所 采用 的 结构 元 素 和 形态 学 算 子 两 
个 方面 。 结 构 元 素 的 选择 十 分 重要 ， 根 据 探测 研究 图 像 的 不 同 结构 特点 ， 结 构 元 素 可 携带 形状 、 
大 小 、 连 通 性 、 灰 度 和 色 度 等 信息 。 由 于 不 同 的 结构 元 素 可 以 用 来 检测 图 像 不 同 的 特征 ， 因 此 结 
构 元 素 的 设计 是 分 析 图 像 的 重要 步骤 。 最 基本 的 形态 学 运算 有 膨胀 、 腐 蚀 、 开 和 闭 运算 。 基 于 这 





些 基 本 运算 可 以 推 








本 章 首先 简要 介 
绍 二 值 形态 学 的 基本 运算 及 其 性 质 ， 以 及 由 基本 运算 导出 的 各 种 二 值 图 像 形 态 学 处 理 实用 算法 ; 


导 和 组 合成 各 种 实用 的 形态 学 图 像 处 理 算法 。 




















绍 了 数学 形态 学 基本 概念 及 数学 形态 学 中 常用 的 集合 论 基 础 知识 ; 然后 介 

















最 后 将 二 值 形态 


形态 学 处 理 算法 。 


3.8 习题 


. 数学 


oo ON DD 


. 什么 是 


算 的 结 


学 推广 到 灰 度 形态 学 ， 介 绍 灰 度 图 像 形态 学 处 理 的 基本 运算 和 各 种 实用 的 灰 度 








. 什么 是 数学 形态 学 ? 其 基本 思想 是 什么 ?简要 描述 数学 形态 学 方法 的 实现 ? 
形态 学 有 哪儿 个 基本 运算 ? 
. 数学 形态 学 方法 适 于 图 像 处 理 的 哪些 方面 ? 写 出 四 种 以 上 数学 形态 学 方法 的 实际 应 用 。 
. 说 明 二 值 膨胀 运算 和 腐蚀 运算 对 图 像 处 理 的 作用 及 其 特点 。 

. 说 明 二 值 开 运算 和 闭 运 算 对 图 像 处 理 的 作用 及 其 特点 。 

“ 开 运 算 和 腐蚀 运算 相 比 有 何 优越 性 ? 闲 运算 和 膨胀 运算 相 比 有 何 优越 性 ? 

. 简 述 边缘 提取 算法 的 主要 步骤 。 什 么 是 内 边缘 、 外 边缘 和 形态 学 边缘 ? 

. 什么 是 图 像 的 骨架 ? 骨架 提取 有 什么 作用 ? 























区 域 填 充 ? 简 述 区 域 填充 的 主要 算法 流程 。 

10. 什么 是 细 化 ? 它 与 腐蚀 有 什么 区 别 ? 简 述 细 化 的 主要 流程 。 
11. 什么 是 粗 化 
12. 已 知 一 幅 灰 度 图 像 为 4， 结 构 元 素 为 B， 试 写 出 结构 元 素 B 对 4 进行 腐蚀 运算 与 膨胀 运 


? 它 与 膨胀 有 什么 区 别 ? 简 述 粗 化 的 主要 流程 。 
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灰 度 图 像 4 结构 元 素 B 





13. 灰 度 开 运 算 和 灰 度 闭 运算 的 定义 是 什么 ? 它们 的 几何 解释 是 什么 ? 
14. 灰 度 的 腐蚀 运算 、 膨 胀 运 算 、 开 运算 和 闭 运算 分 别 具 有 什么 性 质 ? 互相 之 间 有 什么 关系 ? 


15. 灰 度 图 像 的 形态 :学 梯度 如 何 计算 ? 有 什么 作用 1 


16. 采 月 


一 





17. 什么 是 











s 间 梯度 算 子 和 形态 学 梯度 进行 图 像 处 理 时 有 什么 不 同 ? 
由 (Top-hat) 变换 ? 它 有 什么 作用 ? 
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第 4 至 图 像 分 剂 


本 章 学 习 目 标 : 
。 了 解 图 像 分 割 的 依据 和 方法 分 类 。 


。 掌握 基 于 灰 度 阅 值 化 的 图 像 分 割 方 法 ， 重 点 掌握 Otsu 算法 (也 称 为 最 大 类 间 方 差 法 )。 
e 掌握 边缘 检测 的 基本 原理 ， 熟 悉 Roberts、Sobel、Prewitt、LoG、 Canny 等 边缘 检测 算 子 。 


e。 了 解 轮 廊 跟踪 的 基本 方法 及 步骤 。 
。 掌 握 基 于 区 域 生 长 法 、 区 域 分 裂 与 合并 法 的 图 像 分 割 方法 。 
。 了解 基于 主动 轮 廊 模型 的 图 像 分 割 方法 。 

4.1 图 像 分 割 的 概念 及 分 类 


4.1.1 图 像 分 割 的 概念 





在 对 图 像 进行 分 析 和 识别 的 研究 中 ， 人 们 往往 仅 对 图 像 中 的 某 些 区 域 感 兴趣 ， 这 些 区 域 常 








称 为 目标 或 对 象 (Object) ， 它 们 一 般 对 应 图 像 中 某 些 特定 的 、 具 有 独特 性 质 的 区 域 








。 这 里 的 独 








特性 可 以 是 像素 灰 度 值 、 颜 色 、 纹 理 等 。 目 标 可 以 对 应 单个 区 域 ， 也 可 以 对 应 多 个 区 域 。 为 了 辨 
识 和 分 析 目 标 ， 需 要 将 相关 的 区 域 分 离 出 来 ， 在 此 基础 上 才 有 可 能 对 目标 进行 特征 提取 和 测量 























等 一 系列 操作 ， 进 而 进行 图 像 识 别 与 理解 。 可 见 ， 在 图 像 特征 提取 之 前 重要 的 一 步 就 是 图 像 分 


























市， 图 像 分 割 的 好 坏 直 接 影响 到 图 像 的 分 析 和 识别 结果 。 
图 像 分 割 (Tmage Segmentation) 就 是 依据 图 像 的 灰 度 、 颜 色 、 纹 理 和 边缘 等 特征 
像 或 景物 分 为 若干 个 互 不 重奏 的 、 各 自满 足 某 种 相似 性 准则 或 具有 某 种 同 质 特征 的 
取出 感 兴趣 目标 的 技术 。 图 像 分 割 的 目的 是 把 图 像 分 成 一 些 有 意义 的 区 域 , 例 如， 一 
可 以 分 割 成 工业 区 、 住 宅 区 、 湖 泊 、 森 林 等 。 






































人 们 根据 理论 研究 和 实际 应 用 的 要 求 提出 了 多 种 图 像 分 割 的 定义 ， 其 中 广 为 大 众 接受 的 是 














， 将 一 幅 图 
区 域 ， 并 提 





昼 航 空 照片 





基于 集合 论 的 定义 。 设 尺 代 表 整 个 图 像 集合 ， 对 R 的 分 割 可 看 作 是 将 R 分 成 寿 干 个 满足 以 下 5 


个 条 件 的 非 空 子 集 ( 子 区 域 ) R,, R,, R,, 2 R,。 





1) UU R=R， 即 分 制 成 的 所 有 子 区 域 的 并 集 构成 原 区 域 R。 





2) 对 于 所 有 的 i 和 j(i)) ， 有 RNR,= 少 ， 即 分 割 成 的 各 子 区 域 互 不 重 炙 ,或 者 一 个 像素 











不 能 同时 属于 两 个 不 同 的 区 域 。 





3) 对 ;=1,，2，…， n， 有 P(R,) =TRUE， 即 分 割 得 到 的 属于 同一 区 域 的 像素 应 具有 某 些 相 


同 的 特性 。 




















4) 对 于 zz 有 PCRUR) =FALSE， 即 分 割 得 到 的 属于 不 同 区 域 的 像素 应 具有 不 同 的 


特性 。 


5) 对 于 i=1，2,，…, n，R, 是 连通 的 区 域 ， 即 同一 子 区 域 的 像素 应 当 是 连通 的 。 











上 述 这 些 条 件 对 分 割 有 一 定 的 指导 作用 。 但 是 ， 实 际 的 图 像 处 理 和 分 析 都 是 面向 某 种 特定 
的 应 用 ， 所 以 条 件 中 的 各 种 关系 也 是 需要 和 实际 需求 结合 来 设 定 的 。 迄 今 为 止 ， 还 没有 找到 一 种 
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通用 的 方法 ， 可 以 把 人 类 的 要 求 完 全 转换 成 图 像 分 割 中 的 各 种 条 件 关系 ， 所 有 的 条 件 表达 式 都 
是 近似 的 。 

目前 ， 图 像 分 割 的 难点 主要 体现 在 以 下 两 个 方面 。 

1) 绝 大 多 数 分 割 方法 都 是 针对 具体 问题 提出 的 。 实 际 图 像 中 景物 情况 各 异 ， 需 要 根据 实际 
情况 选择 合适 的 方法 。 

2) 没有 一 个 统一 的 评价 准则 来 判断 分 割 结 果 的 好 坏 或 者 正确 与 否 ， 无 法 指导 如 何 选择 合适 
的 分 割 算法 。 


4.1.2 ”图像 分 割 的 依据 和 方法 分 类 


目前 已 经 提出 的 图 像 分 割 方法 有 很 多 ， 从 不 同 的 角度 来 看 ， 图 像 分 割 有 不 同 的 分 类 方法 。 

图 像 分 割 是 依据 灰 度 、 颜 色 、 纹 理 、 几 何 形 状 等 特征 把 图 像 划 分 成 奉 干 个 互 不 重 全 的 区 域 ， 
使 得 这 些 特 征 在 同一 区 域内 表现 出 一 致 性 ， 而 在 不 同 的 区 域 中 表现 出 明显 的 不 同 。 而 灰 度 图 像 
分 割 的 依据 可 建立 在 像素 间 的 “相似 性 ”和 “不 连续 性 ”两 个 基本 概念 之 上 。 所 谓 像素 的 相似 
性 是 指 图 像 中 某 个 区 域内 的 像素 一 般 具 有 茶 种 相似 的 特性 ， 如 像素 灰 度 相等 或 相近 ， 像 素 排列 
所 形成 的 纹理 相同 或 相近 。 所 谓 的 “不 连续 性 ”是 指 在 不 同 区 域 之 间 边 界 上 的 像素 灰 度 的 不 连 
续 ， 形 成 跳 变 的 阶 跃 ， 或 是 指 像素 排列 形成 的 纹理 结构 的 突变 。 所 以 ， 从 分 割 依据 的 角度 来 看 ， 
灰 度 图 像 分 割 方法 可 以 分 为 基于 区 域 边界 灰 度 不 连续 性 的 方法 和 基于 区 域内 部 灰 度 相似 性 的 方 
法 ， 如 图 4-1 所 示 。 

基于 区 域 边界 灰 度 不 连续 性 的 方法 就 是 首 
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先 检测 局 部 不 连续 性 ， 然 后 将 它们 连接 在 一 起 
形成 边界 ， 这 些 边界 将 图 像 分 成 不 同 的 区 域 。 扣 寺 区 过 加 过 检测 2 

如 ， 基 于 边缘 检测 的 图 像 分 割 、 基 于 边缘 跟踪 a es 

的 图 像 分 割 。 基 于 区 域内 部 灰 度 相似 性 的 方法 灰 度 图 像 Pe 
就 是 将 具有 同一 灰 度 级 或 相同 组 织 结构 的 像素 分割 方法 并 人 仙人 
聚集 在 一 起 ， 形 成 图 像 的 不 同 区 域 。 如 ， 阔 值 a | eink 动态 阔 值 化 分 害 
化 分 割 、 区 域 生长 、 区 域 分 裂 与 合并 都 属于 此 区 域 分 裂 与 合并 生长 

类 方法 。 图 4-1 灰 度 图 像 分 割 方法 的 分 类 


随 着 计算 机 处 理 能 力 的 提高 ， 很 多 方法 不 
断 涌现 ， 如 基于 彩色 分 量 分 割 、 纹 理 图 像 分 割 等 。 所 使 用 的 数学 工具 和 分 析 手 段 也 不 断 地 扩展 ， 
从 时 域 信号 到 频 域 信号 处 理 ， 近 来 小 波 变换 也 应 用 在 图 像 分 割 当 中 。 

图 像 分 割 除 依照 图 像 自 身 的 特点 进行 处 理 以 外 ， 还 常常 借助 于 其 他 学 科 的 方法 来 完成 。 例 
如 ， 基 于 统计 模式 识别 的 分 割 、 基 于 数学 形态 学 的 图 像 分 割 、 基 于 神经 网 络 的 分 制 、 基 于 信息 论 
的 分 割 等 。 


4.2 基于 灰 度 阅 值 化 的 图 像 分 割 


























4.2.1 浆 值 化 分 割 的 原理 


国 值 化 分 割 算法 的 基本 原理 是 : 通过 对 图 像 的 灰 度 直方 图 进行 数学 统计 ， 选 择 一 个 或 多 个 
直 将 像素 划分 成 若干 类 。 一 般 情况 下 ， 当 图 像 由 灰 度 值 相差 较 大 的 目标 和 背景 组 成 时 ， 如 果 目 
标 区 域内 部 像素 灰 度 分 布 均匀 一 致 ， 背 景区 域 像素 在 另 一 个 灰 度 级 上 也 分 布 均 匀 ， 这 时 图 像 的 
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灰 度 直方 图 会 呈现 出 双 蜂 的 特性 。 如 图 4-2b 所 示 的 钱币 图 像 的 灰 度 直方 图 。 该 直方 图 为 非 归 一 
化 直方 图 ， 横 坐标 为 灰 度 值 ， 纵 坐标 为 像素 个 数 。 图 中 位 于 偏 右 〈 高 灰 度 值 ) 的 部 分 反映 了 背 
景 的 灰 度 分 布 ， 位 于 偏 左 〈 低 灰 度 值 ) 的 部 分 反映 了 目标 〈 钱 币 ) 的 灰 度 分 布 。 

在 这 种 情况 下 ， 选 取 
位 于 这 两 个 峰值 中 间 的 谷 
底 对 应 的 灰 度 值 了 作为 灰 
度 阔 值 ， 将 图 像 中 各 个 像 
素 的 灰 度 值 与 这 个 阔 值 进 
行 比较 ， 根 据 比较 的 结 
将 图 像 中 的 像素 划分 到 两 
个 类 中 。 像 素 灰 度 值 大 于 
阔 值 7 的 像素 点 归 为 一 类 
(如 目标 区 域 ) ， 而 像素 灰 
度 值 小 于 或 等 于 阔 值 7 的 
像素 点 归 为 男 一 类 〈( 如 背景 区 域 ) 。 经 阅 值 化 处 理 后 的 图 像 g(x，y) 定义 为 

1， f(x,y) > 了 
Stan wo 人 cr (4-1) 

式 中 ,f(x，y) 为 原 图 像 ，7 为 灰 度 赣 值 ; g(x，y) 为 分 割 后 产生 的 二 值 图 像 ， 标 记 为 1 的 像 
素 属于 目标 区 域 ， 而 标记 为 0 的 像素 属于 背景 区 域 。 这 种 仅 使 用 一 个 单一 的 章 什 进行 图 像 分 割 的 
方法 称 为 单 阅 值 化 分 割 方法 。 如 果 图 像 中 有 多 个 灰 度 值 不 同 的 区 域 ， 那 么 可 以 选择 多 个 阔 值 对 
图 像 进行 分 割 ， 以 将 每 个 像素 划分 到 合适 的 类 别 中 去 。 

由 于 阔 值 化 分 割 方法 是 通过 阅 值 来 定义 图 像 中 不 同 像素 的 区 域 归属 ， 在 阔 值 确定 后 ， 通 过 阔 值 
化 分 割 出 的 结果 直接 给 出 了 图 像 的 不 同 区 域 划分 。 而 在 实际 应 用 中 ， 图 像 的 灰 度 直方 图 受 噪 声 和 对 
比 度 的 影响 较 大 ， 最 佳 阔 值 很 难 确定 ， 因 此 ， 阔 值 化 分 割 法 的 关键 和 难点 就 是 如 何 选取 一 个 最 佳 半 
值 ， 使 图 像 分 割 效果 达到 最 好 。 目 前 有 多 种 阔 值 选取 方法 ， 依 据 赣 值 的 应 用 范围 可 将 阔 值 化 分 割 方 
法 分 为 全 局 阔 值 化 分 制 法 、 局 部 赣 值 化 分 制 法 和 动态 阔 值 化 分 制 法 3 类 。 


4.2.2 全 局 阅 值 化 分 割 法 


全 局 阔 值 化 分 割 法 是 指 在 阔 值 化 过 程 中 只 使 用 一 个 阔 值 ， 对 整 幅 图 像 采 用 固定 的 阔 值 进行 
分 制 。 根 据 阀 值 选择 方法 的 不 同 ， 全 局 阔 值 化 分 割 可 以 分 为 基于 灰 度 值 的 全 局 浆 值 化 分 制 和 基 
于 空间 信息 的 全 局 阔 值 化 分 割 。 

如 果 把 阔 值 化 分 割 看 作 是 对 下 列 形 式 函 数 了 的 一 种 操作 ， 即 

T=T[f(x,y) ,p(x,y)] (4-2) 
式 中 , f(x, y) 为 点 (x, y) 的 灰 度 值 ; p(x, y) 为 点 (x,，y) 邻 域 的 某 种 局 部 特性 ， 如 以 
(xz*，y) 为 中 心 的 邻 域 的 平均 灰 度 值 。 则 当 7 了 = 7[f(x,y) ] 时 ， 阔 值 了 的 选取 只 取决 于 像素 的 灰 
度 值 Kx ，7y) ， 即 为 基于 灰 度 值 的 全 局 闵 值 化 分 割 ， 当 7 了 =7 [f(x, y), p(x, y)] 时 ， 阅 值 7 的 选 
取 不 仅 取决 于 像素 的 灰 度 值 凡 xz，y) ， 还 取决 于 该 点 邻 域 的 某 种 局 部 特性 ， 即 为 基于 空间 信息 的 全 
局 阔 值 化 分 制 。 

在 这 两 类 方法 中 ， 基 于 灰 度 值 的 全 局 阔 值 化 分 割 算法 原理 相对 简单 ， 复 杂 度 比较 低 ， 和 常见 的 
有 p- 分 位 数 法 、 和 迭代 法 、Otsu 算法 、 一 维 最 大 信 阔 值 化 法 和 最 小 误差 法 ,但 所 使 用 的 像素 的 特 
征 信息 较 少 。 从 信息 论 角度 看 ， 利 用 像素 的 特征 信息 越 多 ， 被 误 分 类 的 可 能 性 也 就 越 小 。 上 述 基 
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直方 图 








a) 钱币 图 像 b) 灰 度 直方 图 
图 4-2 钱币 图 像 及 其 灰 度 直方 图 














































































































于 灰 度 值 的 全 局 阐 值 化 分 割 法 只 考虑 了 像素 的 灰 度 值 特征 ， 而 忽略 了 像素 的 其 他 信息 ， 所 以 当 
图 像 质量 较 差 时 ， 选 取 的 阔 值 并 非 最 佳 阀 值 ， 分 割 效 果 不 理想 ; 同时 ， 对 于 完全 不 同 的 两 幅 图 像 
可 以 有 相同 的 直方 图 ， 所 以 仅仅 利用 图 像 的 灰 度 值 特征 ， 并 不 能 保证 得 到 合理 的 浆 值 。 基 于 以 上 
两 点 考虑 ， 可 以 基于 空间 信息 进行 全 局 的 闵 值 化 分 割 ， 即 在 多 维特 征 空间 中 对 像素 进行 分 类 有 
助 于 改善 分 割 效 果 。 通 常 ， 像 素 的 空间 信息 可 以 是 不 同 尺度 的 邻 域 均值 、 梯 度 值 、 共 生 和 矩阵 等 
等 。 常 用 的 基于 空间 信息 的 全 局 阐 值 化 分 割 方法 利用 像素 的 灰 度 值 和 x% 邻 域 均 值 这 两 个 特征 
对 图 像 进 行 分 割 ， 常 见方 法 有 二 维 Otsu 国 值 化 分 割 法 和 二 维 最 大 粹 闷 值 化 分 割 法 。 

1. p- 分 位 数 法 

P- 分 位 数 法 是 1962 年 Doyle 提出 的 ， 是 最 古老 的 一 种 阅 值 化 分 割 算法 ， 其 基本 原理 是 根据 先 
验 知识 ， 得 到 目标 与 背景 像素 的 先 验 概率 比例 P,/P,， 再 根据 此 条 件 依次 累计 灰 度 直方 图 ， 直 到 
累计 值 大 于 或 等 于 该 比例 数 ， 此 时 的 灰 度 值 即 为 最 佳 浆 值 。 该 算法 简单 ， 有 一 定 的 抗 噪声 能 力 ， 
但 对 于 一 些 复杂 图 像 的 先 验 概率 比较 难 求 得 ， 不 适用 于 所 有 图 像 。 

2. 迭代 法 

对 于 直方 图 双 峰 明显 、 谷 底 较 深 的 图 像 ， 可 以 使 用 迭代 法 获得 最 佳 国 值 。 

迭代 式 国 值 选取 方法 的 基本 思路 是 : 首先 根据 图 像 中 目标 的 灰 度 分 布 情况 ， 选 取 一 个 近似 
国 值 作为 初始 靖 值 ， 一 个 比较 好 的 方法 就 是 将 图 像 的 灰 度 均值 作为 初始 净值 ; 然后 通过 分 割 图 
像 和 修改 阔 值 的 迁 代 过 程 获得 认可 的 最 佳 冰 值 。 和 迭代 式 阔 值 选取 过 程 可 描述 如 下 。 

QD 选取 图 像 的 平均 灰 度 值 作为 初始 阔 值 7。 

G@) 利用 阐 值 了 把 给 定 图 像 的 像素 点 分 成 两 部 分 ， 记 为 R 和 RR,。 

@ 计算 R, 的 均值 ww 和 RR, 的 均值 多,。 

(9 选择 新 的 闷 值 7， 且 
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重复 第 @ ~@ 步 ， 直 到 R, 的 均值 和 RR 的 均值 几 不 再 变化 为 止 。 

3. Otsu 算法 

Otsu 算法 也 称 为 最 大 类 间 方 差 法 或 最 小 类 内 方差 法 ， 是 由 日 本 学 者 Otsu 首先 提出 的 。 该 方 
法 基于 图 像 的 灰 度 直方 图 ， 以 目标 和 背景 的 类 间 方 差 最 大 或 类 内 方差 最 小 为 阀 值 选 取 准 则 ， 计 
算 简 单 ， 可 以 满足 实时 性 的 要 求 。 

设 f(x, y) 为 MxN 大 小 图 像 在 (x, y) 点 的 灰 度 值 , Kx*，y) 的 取 值 为 [0, K], 记 p(k) 
为 灰 度 级 天 出现 的 概率 ， 即 


了 (4-3) 









































1 
h) = 1 4-4 
p(k) NN, (4-4) 


假设 以 灰 度 级 t 作为 分 割 图 像 的 靖 值 ， 像 素 灰 度 值 大 于 浆 值 :的 像素 点 归 为 一 类 (如 ， 目标 
区 域 ) ， 而 像素 灰 度 值 小 于 或 等 于 阔 值 : 的 像素 点 归 为 男 一 类 〈 如 ， 背 景区 域 ) 。 于 是 ， 背 景 部 分 
所 占 比 例 为 





























wa(t) = 2 p(k) (4-5) 
目标 部 分 所 占 比例 为 
wolt) = 之 及 (4-6) 





背景 的 平均 灰 度 值 为 
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四 ) 数字 图 像 与 视频 处 理 















































_ Vv fp(k) 

Ka 全 wa (t) a 

目标 的 平均 灰 度 值 为 
Molt) = 之 人 (4-8) 

图 像 的 平均 灰 度 值 为 
内 = wa(t)Ks(t) + wolt)Kolt) (4-9) 

Ostu 给 出 的 最 佳 冰 值 7 的 公式 为 

T=arg max jzon(D[Un(D -A] +wo(D)LAo(D -A] | (4-10) 





Ostu 算法 在 图 像 灰 度 直方 图 具有 明显 的 波峰 和 波 谷 分 布 时 具有 良好 的 效果 ， 即 图 像 要 具有 
明显 的 双 峰 或 多 峰 。 但 当前 景 和 背景 灰 度 相近 或 目标 较 小 时 ， 图 像 灰 度 直方 图 表现 为 单 峰 ， 此 时 
Ostu 算法 给 出 的 阔 值 会 出 现 偏差 。 此 外 ，Otsu 算法 的 抗 噪声 性 能 也 不 高 ， 对 受 噪 声 影 响 较 大 的 
图 像 ， 分 割 效果 不 好 。 

闽 值 化 分 割 的 方法 很 多 ， 每 一 种 方法 几乎 都 有 其 独特 的 优点 和 实际 应 用 的 背景 ， 此 处 不 再 
一 一 介绍 。 实 际 应 用 中 ， 立 值 化 分 割 经 常 需要 和 其 他 方法 相互 结合 使 用 ， 才 能 获得 最 佳 或 满意 的 
分 割 结 果 。 


4.2.3 ”局 部 阅 值 化 分 割 法 


当场 景 中 的 照明 不 均匀 或 者 背景 灰 度 变化 比较 大 的 时 候 ， 一 个 单一 的 全 局 国 值 无 法 满足 整 
幅 图 像 的 分 割 要 求 ， 因 为 单一 的 靖 值 不 能 兼顾 图 像 中 各 个 


像素 的 实际 情况 。 显 然 ， 在 这 种 情况 下 ， 就 不 能 使 用 上 述 A 4 | 
的 全 局 阔 值 化 分 割 方法 。 处 理 不 均匀 照明 或 不 均匀 灰 度 分 





























































































































吕 


背景 的 直接 方法 是 首先 把 图 像 分 成 一 个 个 小 区 域 ， 或 子 


图 像 ， 然 后 分 析 每 一 个 子 图 像 ， 并 对 每 个 子 图 像 选 取 相应 加 区 
的 羡 值 。 比 如 ， 把 图 像 分 成 m x 工 个 子 图 像 ， 并 基于 第 元 ， 图 像 


子 图 像 的 直方 图 来 选择 该 子 图 像 的 阔 值 7, (1<i<m, 1<j 加 






























































<") ， 图 像 分 割 的 最 后 结果 是 所 有 子 图 像 分 割 区 域 的 逻辑 
并 。 局 部 阅 值 化 分 割 法 的 原理 如 图 4-3 所 示 。 


局 部 阔 值 化 分 割 法 的 关键 问题 是 如 何 将 图 像 划分 成 子 | mi 12 D3 
图 像 以 及 如 何 为 得 到 的 子 图 像 估 计 阔 值 。 一 般 情况 下 ， 由 aa aa a 
于 局 部 阔 值 化 分 制 是 对 每 幅 子 图 像 分 别 进行 全 局 阔 值 化 分 图 4-3 局 部 阔 值 化 分 割 法 的 示意 图 


割 ， 分 割 后 的 子 图 像 之 间 会 产生 灰 度 级 的 不 连续 ， 因 此 ， 

可 以 采用 插值 或 者 有 重 登 的 截取 子 图 像 的 方法 来 消除 这 个 影响 。 同 时 ， 选 用 局 部 阔 值 化 分 割 法 
时 还 要 注意 以 下 两 点 : 首先 ， 截 取 子 图 像 时 尺寸 不 能 太 小 ， 否 则 计算 出 的 一 些 统计 结果 无 意义 ; 
其 次 ， 每 幅 图 像 的 分 割 是 任意 的 ， 如 果 有 一 幅 子 图 像 正 好 落 在 目标 区 域 或 背景 区 域 ， 而 根据 统计 
结果 对 其 进行 分 割 ， 可 能 会 产生 更 差 的 分 割 结果 。 


4.3 ”基于 边缘 检测 的 图 像 分 割 


图 像 边缘 是 图 像 最 基本 的 特征 ， 在 图 像 分 析 中 起 着 重要 作用 。 边 缘 (Edge) 是 指 图 像 局 部 
特性 发 生 突变 之 处 ， 主 要 存在 于 目标 与 目标 、 目 标 与 背景 、 区 域 与 区 域 (包括 不 同色 彩 ) 之 间 。 
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为 


图 像 边 缘 意 味 着 图 像 中 一 个 区 域 的 终结 和 男 一 个 区 域 的 开始 ， 是 不 同 区 域 的 分 界 处 ， 利 用 该 特 
征 可 以 分 制图 像 。 边 缘 检 测 (Edge detection) 是 图 像 分 割 、 图 像 分 析 和 理解 的 重要 基础 。 基 于 边 
缘 检 测 的 图 像 分 割 方法 的 基本 思路 是 先 确定 图 像 中 的 边缘 像素 ,然后 就 可 把 它们 连接 在 一 起 构 
成 所 要 的 边界 。 


4.3.1 边缘 检测 的 基本 原理 和 步骤 


图 像 边缘 具有 方向 和 幅度 两 个 特征 。 通 常 沿边 缘 的 走向 ， 像 素 值 变化 比较 平缓 ; 而 沿 垂直 于 
边缘 的 走向 ， 像 素 值 则 变化 比较 剧烈 。 这 种 剧烈 的 变化 或 者 呈 阶 跃 状 ， 或 者 呈 屋 项 状 ， 分 别称 为 
阶 跃 状 边缘 和 屋顶 状 边缘 。 阶 跃 状 边缘 处 于 图 像 中 两 个 具有 不 同 灰 度 值 的 相 邻 区 域 之 间 ， 两 边 
的 灰 度 值 有 明显 变化 ; 而 屋顶 状 边缘 的 上 升 沿 和 下 降 沿 都 有 一 定 的 坡度 ， 不 是 很 陡 立 ， 位 于 灰 度 
值 增加 和 减 小 的 交界 处 。 另 一 种 是 由 上 升 阶 跃 和 下 降 阶 跃 组合 而 成 的 脉冲 状 边缘 ， 主 要 对 应 于 
细 条 状 的 灰 度 值 突变 区 域 。 边 缘 上 的 这 种 灰 度 的 不 连续 性 往往 可 通过 求 导数 方便 地 检测 到 。 根 
据 灰 度 变化 的 特点 一 般 常 用 一 阶 导 数 和 二 阶 导 数 来 检测 边缘 。 
具有 阶 跃 状 、 脉 冲 状 、 屋 项 状 边缘 的 图 像 ， 以 及 图 像 沿 水 平方 向 灰 度 变化 的 边缘 曲线 的 齐 
面 、 边 缘 曲 线 的 一 阶 和 二 阶 导数 的 变化 规律 如 图 4-4 所 示 。 
































































































































二 阶 导 数 
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a) 上 升 阶 跃 边缘 b) 下 降 阶 跃 边 缘 0) 脉冲 状 边缘 d) 屋顶 状 边 缘 
图 4-4 图 像 边缘 的 灰 度 变化 与 导数 


在 图 4-4a 中 ， 对 灰 度 值 剖 面 的 一 阶 导 数 ， 在 图 像 由 暗 变 亮 的 位 置 处 有 一 个 向 上 的 阶 跃 ， 而 
在 其 他 位 置 都 为 零 。 这 表明 可 用 一 阶 导数 的 幅度 值 来 检测 边缘 的 存在 ， 幅 度 峰 值 一 般 对 应 边缘 
位 置 。 对 灰 度 值 剖面 的 二 阶 导 数 ， 在 一 阶 导 数 的 阶 跃 上 升 区 有 一 个 向 上 的 脉冲 ， 而 在 一 阶 导 数 的 
阶 跃 下 降 区 有 一 个 向 下 的 脉冲 。 在 这 两 个 阶 跃 之 间 有 一 个 零 交叉 点 (Zero crossing) ， 它 的 位 置 正 
对 应 原 图 像 中 边缘 的 位 置 。 所 以 可 用 二 阶 导 数 的 零 交 叉 点 检测 边缘 位 置 ， 而 用 二 阶 导 数 在 零 交 
又 点 附近 的 符号 确定 边缘 像素 在 图 像 边 缘 的 暗 区 或 亮 区 。 

同 理 ， 分 析 图 4-4b， 可 得 到 相似 的 结论 。 这 里 图 像 是 由 亮 变 暗 ， 所 以 与 网 4-4a 相 比 ， 剂 面 
左右 对 换 ， 一 阶 导 数 上 下 对 换 ， 二 阶 导数 左右 对 换 。 

在 图 4-4c 中 ， 脉 冲 形 的 剖面 边缘 与 图 4-4a 所 示 的 一 阶 导 数 形 状 相 同 ， 所 以 图 4-4c 所 示 的 一 阶 
导数 形状 与 图 4-4a 所 示 的 二 阶 导 数 形状 相同 ， 而 它 的 2 个 二 阶 导 数 零 交叉 点 正好 分 别 对 应 脉冲 的 上 
升 沿 和 下 降 沿 。 通 过 检测 脉冲 剖面 的 2 个 二 阶 导 数 零 交叉 点 就 可 确定 脉冲 的 范围 。 

同 理 ， 由 分 析 图 4-4d 所 示 的 屋顶 状 边缘 可 知 ， 通 过 检测 屋顶 状 边缘 剖面 的 一 阶 导 数 零 交叉 
点 就 可 以 确定 屋顶 位 置 。 
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值得 注意 的 是 ， 实 际 分 析 的 图 像 要 复杂 得 多 ， 图 像 边缘 的 灰 度 变化 情况 并 不 仅 限于 上 述 的 
几 种 情况 。 上 面 的 讨论 仅 限于 水 平方 向 上 的 灰 度 变化 的 分 析 。 

边缘 检测 通常 包括 如 下 4 个 步骤 。 

GD 滤波 : 边缘 检测 算法 主要 是 基于 图 像 灰 度 的 一 阶 和 二 阶 导数 ， 但 导数 的 计算 对 噪声 很 敏感 ， 
因此 必须 使 用 滤波 器 来 改善 与 噪声 有 关 的 边缘 检测 器 的 性 能 。 需 要 指出 ， 大 多 数 滤波 器 在 降低 噪声 
的 同时 也 导致 了 边缘 强度 的 损失 ， 因 此 ， 增 强 边 缘 和 降低 噪声 之 间 需 要 折 中 。 

@) 增强 增强 边缘 的 基础 是 确定 图 像 各 点 邻 域 灰 度 的 变化 值 。 增 强 算法 可 以 将 邻 域 (或 局 
部 ) 灰 度 值 有 显著 变化 的 点 突显 出 来 。 边 缘 增 强 一 般 是 通过 计算 梯度 幅 值 来 完成 的 。 

@ 检测 : 在 图 像 中 有 许多 点 的 梯度 幅 值 比较 大 ， 而 这 些 点 在 特定 的 应 用 领域 中 并 不 都 是 边 
缘 ， 所 以 应 该 用 某 种 方法 来 确定 哪些 点 是 边缘 点 。 最 简单 的 边缘 检测 判 据 是 梯度 幅 值 阔 值 判 据 。 

@ 定位 ; 如 果 某 一 应 用 场合 要 求 确定 边缘 位 置 ， 则 边缘 的 位 置 可 在 子 像素 分 辨 率 上 来 估计 ， 
边缘 的 方位 也 可 以 被 估计 出 来 。 

在 边缘 检测 算法 中 ， 前 3 个 步 又 用 得 十 分 普遍 。 这 是 因为 在 大 多 数 场合 下 ， 仅 仅 需要 边缘 检 
测 器 指出 边缘 出 现在 图 像 某 一 像素 点 的 附近 ， 而 没有 必要 指出 边缘 的 精确 位 置 或 方向 。 

4.3.2 梯度 算 子 

边缘 检测 是 检测 图 像 局 部 强度 显著 变化 的 最 基本 运算 。 在 一 维 情况 下 ， 阶 跃 边 缘 同 图 像 的 一 阶 
导数 局 部 峰值 有 关 。 梯 度 是 函数 变化 的 一 种 度量 ， 而 一 幅 图 像 可 以 看 作 是 图 像 强度 连续 函数 的 采样 
点 阵列 。 因 此 ， 同 一 维 情况 类 似 ， 图 像 灰 度 值 的 显著 变化 可 用 梯度 的 离散 逼近 函数 来 检测 。 对 于 图 
像 Kx，y) ， 它 在 点 〈x，y) 处 的 梯度 是 一 阶 导数 的 二 维 列 向 量 ， 定 义 为 
















































































































































































of 
oz of of T 
GLAx,y) ] = af | ar ay =[G. G,] (4-11) 
07 
梯度 的 方向 在 函数 J(x，y) 最 大 变化 率 的 方向 上 ， 梯 度 的 幅度 ( 模 值 ) 可 由 下 式 计 算 ; 
Gfxn)11= Ver =/ 二 + (¥) (4-12) 
梯度 的 方向 定义 为 
0(x,y) -mcan [| (4-13) 








式 中 ,9 角 是 相对 x 轴 的 角度 。 
需要 注意 的 是 ， 梯 度 的 幅 值 实际 上 与 边缘 的 方向 无 关 ， 这 样 的 算 子 称 为 各 向 同性 算 子 Tsotropic 
operators) 。 梯 度 幅 度 是 一 个 标量 ， 它 用 到 了 平方 和 开平 方 运算 ， 具 有 非 线性 ， 并 且 总 是 正 的 。 
为 了 方便 起 见 ， 以 后 把 梯度 幅度 简称 为 梯度 。 
在 实际 计算 中 ， 为 了 降低 图 像 的 运算 量 ， 常 用 绝对 值 或 最 大 值 代 替 平 方 和 平方 根 运算 ， 即 






























































[GLf(x,7y)]|= 16.|+16,| (4-14) 
或 
[GLf(x,y) 1 |~max( |G,|,16,1) (4-15) 
对 于 数字 图 像 ， 侦 导数 可 用 差分 来 近似 。 最 简单 的 梯度 近似 表达 式 为 
[G[fCGi,)D 1|= AG+1,7)) -fi,7) | + fisj+1) -fi,7) | (4-16) 
即 
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(4-17) 














G,=f(i+1,7) -/(i,)) 
G,=f(i,7+1) -f(i,7) 

在 计算 梯度 时 ， 计 算 空 间 同 一 位 置 和 j 处 的 真实 偏 导 数 是 至 关 重 要 的 。 然 而 采用 上 面 公 式 
计算 的 梯度 近似 值 6, 和 C, 并 不 位 于 同一 位 置 ，C, 实际 上 是 内 搬 点 (i+1/2,]) 处 的 梯度 近似 
值 ，G, 是 内 插 点 (i,j+1/2) 处 的 梯度 近似 值 。 由 于 这 个 缘故 ， 人 们 通常 采用 下 述 几 种 梯度 
算 子 。 

1， 了 Roberts 算 子 

Roberts 算 子 采用 交叉 差分 运算 ， 为 梯度 幅 值 计算 提供 了 一 种 简单 的 近似 方法 ， 其 数学 表达 
式 为 



























































[IG[fCi,)) 1|= 16 |+|6, = [fCGr1,j+1) -AD 站 1+|G7+l) -Ai+l,7)| (4-18) 
用 模板 操作 表示 为 
-1 0 0 -1 
a-[ mb 0 
Roberts 算 子 的 差分 值 将 在 内 插 点 (i+1/2,j+1/2) 处 计算 ， 是 该 点 梯度 幅 值 的 近似 值 ， 而 
不 是 所 预期 的 点 〈z,7) 处 的 梯度 幅 值 近似 值 。 
2. Prewitt 算 子 
Prewitt 算 子 对 Roberts 算 子 进行 了 改进 ， 以 像素 AD) flD AUD 
(i,j) 为 中 心 ， 取 如 图 4-5 所 示 的 3 x3 像素 窗口 ， 分 M . | 
别 计算 窗口 中 心 像素 在 x 和 y 方向 的 梯度 ， 以 避免 在 
像素 之 间 内 插 点 上 计算 梯度 值 。 利 用 Prewitt 算 子 得 到 HAD MHD DAD 
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fli, 1) fli,)) fli, it1) 





























的 晨 (i, 放 处 的 梯度 幅 值 的 近似 什 。 图 4-5 Prewitt 算 子 的 3 x3 像素 窗口 
Prewitt 算 子 采用 的 3 x3 的 卷 积 模板 为 
Fr-1 01 1 a 
H=| -1 0 1 "| 0 ,| (4-20) 
[101 1 1 1 
若 要 检测 对 角 线 方向 的 边缘 ， 则 可 采用 如 下 的 改进 的 Prewitt 算 子 卷 积 模板 : 
ro 1 1 -1 -1 0 
H=| -1 0 : -| 0 1 (4-21 ) 
L-1 -10 0 1 1 
Prewitt 算 子 算法 简单 ， 检 测速 度 快 ， 但 对 噪声 敏感 。 


3. Sobel 算 子 
Sobel 算 子 对 Prewitt 算 子 进行 了 改进 ， 通 过 增加 接近 于 模板 中 心 的 像素 点 权 值 来 实现 对 图 像 

某 种 程度 上 的 平滑 ,减少 对 品 声 的 敏感 性 ， 其 模板 大 小 仍 为 3 x3 ， 如 下 所 示 : 
-1 0 1 -1 -2 -1l 
"| 四 "| 0 0 


-1 0 1 1 2 1 





(4-22) 





4.3.3 拉 普 拉 斯 算 子 和 LoG 算 子 


1. 拉 普 拉 斯 算 子 
前 面 讨 论 了 计算 一 阶 导数 的 边缘 检测 算 子 ， 如 果 所 求 的 一 阶 导 数 高 于 某 一 阅 值 ， 则 确定 该 
点 为 边缘 点 。 这 样 做 会 导致 检测 的 边缘 点 太 多 。 一 种 更 好 的 方法 就 是 求 梯度 局 部 最 大 值 对 应 的 
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点 ， 并 认定 它们 是 边缘 点 ， 
如 图 4-6 所 示 。 在 图 4-6 
中 ， 大 用 一 阶 导 数 的 装 值 
化 来 进行 边缘 检测 ， 则 在 a 
和 5b 之 间 的 所 有 点 都 被 记 为 
边缘 点 。 但 通过 去 除 一 阶 
导数 中 的 非 局 部 最 大 值 ， 
可 以 检测 出 更 精确 的 边缘 。 
一 阶 导 数 的 局 部 最 大 值 对 
应 着 二 阶 导 数 的 零 交 叉 点 
(Zero crossing ) 。 这 意味 着 
在 边缘 点 处 有 一 阶 导 数 的 
峰值 ， 同 样 地 ， 有 二 阶 导 
数 的 零 交叉 点 。 这 样 ， 通 
过 找 图 像 强度 的 二 阶 导 数 
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的 零 交 叉 点 就 能 找到 边 男 4.6 用 一 阶 导 数 的 间 值 化 和 二 阶 导数 的 零 交叉 点 进行 边缘 检测 的 比较 


缘 点 。 








拉 普 拉 斯 (Laplacian) 运算 是 二 阶 偏 导 数 运算 的 线性 组 合 运算 ， 而 且 是 一 种 各 向 同性 〈 旋 
转 不 变性 ) 的 线性 运算 。 一 个 连续 的 二 元 函数 /xzx，y) ， 它 在 点 (*，y) 处 的 拉 普 拉 斯 算 子 定 


义 为 





Vf= Of(x,y) ,9f(%,y) 
gx oy 


对 数字 图 像 来 讲 ，f(i,j) 的 二 阶 偏 导数 可 近似 表示 为 


0 
Ox 








07 


Ll 


= [fit -fi -LAi,)) -fi-1),i 
=f(i+1,7) +f(i-1,7) -2f(i,7) 


i 
二 [fl(i,7j+1) —f(i,]) ] ny, [f(i,7) —f(i,7—1)] 


=f/(i,j+1) +f(i,ij-1) —2f/(i,]) 











故 拉 普 拉 斯 算 子 为 








Vf= 


ox 


这 
ay 


of 





oy 





(4-23) 


(4-24) 


(4-25) 


(4-26) 


=f(it1,7) +fi-1,7) +fAi, I +1) +f(i,7 -1) -4f/(i,7) 
式 (4-26) 也 可 由 拉 普 拉 斯 算 子 模板 来 表示 ， 即 


0 1 0 
Vi=|I1 -4 1 
0 1 0 


(4-27) 


有 时 希望 邻 域 中 心 点 具有 更 大 的 权 值 ， 比 如 式 (4-26) 描述 的 模板 就 是 一 种 基于 这 种 思想 的 


近似 拉 普 拉 斯 算 子 ， 即 
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为 














1 4 1 

"| -20 4 (4-28) 
1 4 1 

由 于 拉 普 拉 斯 算 子 是 二 阶 偏 导 数 算 子 ， 对 图 像 中 的 噪声 相当 敏感 。 另 外 它 常 产生 双 像 素 宽 
的 边缘 ， 而 且 也 不 能 提供 边缘 方向 的 信息 。 由 于 上 述 原因 ， 拉 普 拉 斯 算 子 很 少 直接 用 于 检测 边 
缘 ， 而 主要 用 于 已 知 边缘 后 确定 该 像素 是 在 图 像 的 暗 区 还 是 亮 区 。 

2. LoG 算 子 

正如 上 面 所 提 到 的 ， 利 用 图 像 强度 二 阶 导 数 的 零 交 叉 点 来 求 边缘 点 的 算法 对 噪声 十 分 敏感 ， 
所 以 ,希望 在 边缘 增强 前 滤 除 噪声 。 为 此 ，Marr 和 Hildreth 将 高 斯 滤波 和 拉 普 拉 斯 边缘 检测 结合 
在 一 起 ， 形 成 高 斯 型 的 拉 普 拉 斯 ( Laplacian of Gaussian，LoG) 算 子 。LoG 边缘 检测 算法 的 主要 
步骤 如 下 。 

(1) 选取 二 维 高 斯 泡 数 对 图 像 f(x，y) 进行 平滑 滤波 

设 二 维 高 斯 函数 为 
































































































































1 x +y 
G4y) = zp 一 (4-29) 


在 空间 域 ， 将 二 维 高 斯 函数 G(x，y) 与 图 像 /(x，y) 进行 卷 积 ， 可 得 到 一 个 平滑 图 像 g(x， 
y)， 即 























8(%,y) =f(%,y) * G(X,y) (4-30) 
式 中 ,G(x, y) 是 一 个 圆 对 称 函 数 ， 其 平滑 作用 可 通过 高 斯 函数 的 分 布 参数 o 进行 控制 。 
(2) 对 平滑 后 的 图 像 g(x，y) 进行 拉 普 拉 斯 运算 
它 可 等 效 为 CCx，y) 的 拉 普 拉 斯 运算 与 fx，y) 的 卷 积 ， 即 












































h(x,y) =V [g(x,y)] =V [f(x,y) * G(x,y) |] =f(x,y) * V [G(x,y)] (4-31) 

式 中 ，V IC(x，7y) ] 称 为 LoG 滤波 器 ， 也 称 为 高 斯 型 的 拉 普 拉 斯 算 子 或 拉 普 拉 斯 高 斯 算 子 ， 即 
二 0C oC 1 [e+y 二 

V [G(x,7)]= 2 十 ay ep seo 7 ] (4-32) 


这 样 ， 采 用 LoG 算 子 求 图 像 边 缘 就 有 两 种 在 数学 上 是 等 价 的 方法 。 

1) 先 求 图 像 与 高 斯 函数 的 卷 积 ， 再 求 卷 积 的 拉 普 拉 斯 变换 ， 然 后 再 进行 过 零 判 断 。 

2) 先 求 高 斯 函数 的 拉 普 拉 斯 变换 ， 再 求 与 图 
像 的 卷 积 。 然 后 再 进行 过 零 判断 。 

由 于 LoG 滤波 器 在 (x，y) 空间 中 的 图 形 形 状 
很 像 黑 西 哥 草帽 ， 如 图 4-7 所 示 ， 所 以 有 时 也 称 之 
为 墨西哥 草帽 算 子 。 

这 种 方法 的 特点 是 图 像 首先 与 高 斯 滤波 器 进行 
卷 积 ， 这 一 步 既 平滑 了 图 像 又 降低 了 噪声 ， 孤 立 的 
噪声 点 和 较 小 的 结构 组 织 将 被 滤 除 。 由 于 平滑 会 导 
致 边缘 的 延展 ， 因 此 边缘 检测 器 只 考虑 那些 具有 局 
部 梯度 最 大 值 的 点 为 边缘 点 。 这 一 点 可 以 用 二 阶 导 
数 的 零 交叉 点 来 实现 。 拉 普 拉 斯 函数 用 作 二 维 二 阶 图 4.7 LoC 函数 的 三 维 曲 线 
导数 的 近似 ， 是 因为 它 是 一 种 无 方向 算 子 。 为 了 避 
免检 测 出 非 显著 边缘 ， 应 选择 一 阶 导 数 大 于 某 一 阔 值 的 零 交叉 点 作为 边缘 点 。 
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(©) 数字 图像 与 视频 处 理 


对 于 数字 图 像 ， 实 现 LoG 算法 的 典型 模板 为 
0 0 -1 0 0 
0 =1 -2 2 0 
Vi=| -1 -2 16 -2 -1 (4-33) 
0 -1 -2 -1 0 
0 0 -1 0 0 












































4.3.4 Canny 算 子 


检测 阶 跃 边缘 的 基本 思想 是 在 图 像 中 找 出 具有 局 部 最 大 梯度 幅 值 的 像素 点 。 检 测 阶 路 边缘 
的 大 部 分 工作 集中 在 寻找 能 够 用 于 实际 图 像 的 梯度 数字 台 近 。 由 于 实际 的 图 像 经 过 了 摄像 机 光 
学 系统 和 电路 系统 (带宽 限制 ) 固有 的 低 通 滤波 器 的 平滑 ， 因 此 ， 图 像 中 的 阶 路 边缘 不 是 十 分 
陡 立 。 图 像 也 受到 摄像 机 噪声 和 场景 中 不 希望 的 细节 的 干扰 。 图 像 梯 度 台 近 必须 满足 两 个 要 求 : 
一 是 逼近 必须 能 够 抑制 噪声 效应 ;二 是 必须 尽量 精确 地 确定 边缘 的 位 置 。 抑 制 噪声 和 边缘 精确 
定位 是 无 法 同时 得 到 满足 的 ， 也 就 是 说 ， 边 缘 检 测算 法 通过 图 像 平滑 算 子 去 除了 噪声 ， 但 却 增加 
了 边缘 定位 的 不 确定 性 ; 反 过 来 ， 若 提高 边缘 检测 算 子 对 边缘 的 敏感 性 ， 同 时 也 提高 了 对 噪声 的 
敏感 性 。 有 一 种 线性 算 子 可 以 在 抗 噪 声 干 扰 和 精确 定位 之 间 提 供 最 佳 折 中 方案 ， 它 就 是 高 斯 函 
数 的 一 阶 导 数 ， 对 应 于 图 像 的 高 斯 函数 平滑 和 梯度 计算 。 梯 度 的 数值 逼近 可 用 x 和 y 方向 上 的 一 
阶 偏 导数 的 有 限 差 分 来 表示 。 高 斯 平滑 和 梯度 到 近 相 结合 的 算 子 不 是 旋转 对 称 的 。 这 种 算 子 在 
边缘 方向 上 是 对 称 的 ， 在 垂直 边缘 的 方向 上 是 反对 称 的 ( 沿 梯度 方向 )。 这 也 意味 着 该 算 子 对 最 
急剧 变化 方向 上 的 边缘 特别 敏感 ， 但 在 沿边 缘 这 一 方向 上 是 不 敏感 的 ， 其 作用 就 像 一 个 平滑 
算 子 。 

1986 年 ，Canny 提出 的 边缘 检测 算法 ， 包 括 以 下 4 个 步骤 。 

(1) 用 高 斯 滤波 器 平滑 图 像 

首先 用 二 维 高 斯 函数 对 图 像 进 行 平滑 。 设 输入 图 像 用 二 维 数组 I[i,j] 表示 ， 二 维 高 斯 函数 


为 C(x,y) = 起 em -与 下 )。 为 了 提高 运算 速度 ， 使 用 可 分 离 渡 波 方法 求 图 像 与 高 斯 平滑 六 


2 
波 器 卷 积 ， 得 到 的 结果 是 一 个 平滑 后 的 图 像 数 组 
S[i,j] =GLi,j;0] *1[Li,/] (4-34) 
其 中 ，c 是 高 斯 函数 的 分 布 参 数 ， 它 控制 着 平滑 程度 。o 越 小 ,平滑 效果 越 差 ， 但 边缘 定位 精 碍 
度 高 ; o 越 大 , 平滑 效果 越 好 ,但 边缘 定位 精确 度 差 。 所 以 平滑 图 像 时 要 根据 情况 选择 适当 
的 o。 
(2) 用 一 阶 偏 导 的 有 限 差 分 来 计算 平滑 后 图 像 的 梯度 幅 值 和 梯度 方向 
平滑 后 的 图 像 数 组 S[ ,7 门 的 梯度 可 以 使 用 2 x2 邻 域 一 阶 有 限 差 分 近似 式 来 计算 x 方向 与 y 
方向 的 偏 导数 ， 即 
忆 [ 六 门 =(SL7+1]-SL 门 +SL+1, +1 -Sl[i+1,7])/2 
PLi,j]~(S[Li,7] —S[i+tl,j] +S[i,j+1] -Slit+l,7j+11])/2 
在 这 个 2 x2 正方 形 内 求 有 限 差分 的 均值 ， 以 便 在 图 像 中 的 同一 点 计算 x 方向 与 y 方 向 的 偏 导 数 
梯度 。 梯 度 幅 值 和 梯度 方向 角 可 用 直角 坐标 到 极 坐标 的 坐标 转化 公式 来 计算 ， 即 
M[i,j]= VPLi,7]) +(P Li 门 ) (4-36) 


re 
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(4-35) 



































(4-37) 
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其 中 ， 反 正切 函数 包含 了 两 个 参量 ， 它 表示 一 个 角度 ， 其 取 值 范围 是 整个 圆周 范围 内 。 为 高 效率 
地 计算 这 些 函 数 ， 尽 量 不 用 浮 点 运算 。 梯 度 的 幅度 和 方向 也 可 以 通过 查找 表 由 偏 导 数 计算 。 

(3) 对 梯度 幅 值 进行 “ 非 极 大 值 抑制 ” 

梯度 幅 值 阵 列 M[i,j 的 值 越 大 ， 其 对 应 的 图 像 梯 度 值 也 越 大 ， 但 这 还 不 足以 确定 边缘 ， 因 
为 这 里 仅仅 把 图 像 快 速 变 化 的 问题 转化 成 求 幅 值 阵列 M[i, 门 的 局 部 最 大 值 问题 。 为 了 精确 定位 
边缘 ， 必 须 细 化 梯度 幅 值 阵列 M[i, 站 中 的 屋 疹 带 (Ridge)， 即 只 保留 幅 值 局 部 变化 最 大 的 点 。 
这 一 过 程 称 为 “ 非 极 大 值 抑制 ”( Non- Maxima Suppression，NMS ) ， 它 会 生成 细 化 的 边缘 。 

非 极 大 值 抑 制 通过 抑制 梯度 线 上 所 有 非 屋 疹 峰值 的 幅 
值 来 细 化 ME, 让 中 的 梯度 幅 值 屋 疹 。 这 一 算法 首先 将 梯 
度 方向 角 9[i, 门 的 变化 范围 减 小 到 圆周 的 4 个 扇 区 之 一 ， > 和 
如 图 4-8 所 示 。 





为 







































































[i,j] =Sector(0[i,7]) (4-38) 

4 个 扁 区 的 标号 为 0~3， 即 Z[i, 站 的 取 值 为 0、1、2 180 6 
或 3， 对 应 着 3 x3 邻 域内 中 心 像素 与 相 邻 像素 的 4 种 邻 
接 关 系 。 例 如 ， 若 中 心 像素 [i, 门 的 梯度 方向 属于 第 3 
遍 区 ， 即 Zi, 站 =3， 则 把 中 心 像 素 [7 门 的 梯度 幅 值 


























M[i,j] 与 其 左上 、 右 下 相 邻 像素 的 梯度 幅 值 MIi-1,j-1]、 会 . 
M[i+1,j+1] 进行 比较 ,检测 M[i,j] 是 否 是 局 部 极 大 值 。 270 

如 果 在 邻 域 中心 点 处 的 梯度 幅 值 M[i,j] 不 比 沿 梯度 方向 上 ”图 4-8 用 于 非 极 大 值 抑制 的 可 能 
的 两 个 相 邻 点 的 梯度 幅 值 大 ， 则 M[i, 站 赋值 为 零 。 这 个 过 梯度 方向 划分 示意 图 











程 就 称 为 “ 非 极 大 值 抑制 "， 它 可 以 把 M[i,j] 宽 屋 兰 人 带 细 化 
成 只 有 一 个 像素 点 宽 。 在 非 极 大 值 抑制 过 程 中 ， 保 留 了 屋 兰 的 高 度 值 。 


设 





NLi,i] =NMS(ML[i,j] ,6Li,j]) (4-39) 


表示 非 极 大 值 抑制 过 程 。N[i,j 站 中 的 非 零 值 对 应 着 图 像 强度 阶 路 变化 处 的 对 比 度 。 尽 管 在 边缘 
检测 的 第 一 步 对 图 像 进行 了 平滑 ， 但 非 极 大 值 抑制 幅 值 图 像 N[i, 站 仍 会 包含 许多 由 噪声 和 细 纹 
理 引起 的 假 边 缘 段 。 实 际 中 ， 假 边缘 段 的 对 比 度 一 般 是 很 小 的 。 

(4) 用 双 国 值 算 法 检测 和 连接 边缘 

减少 假 边 缘 段 数量 的 典型 方法 是 对 N[z,7 门 使 用 一 个 冰 值 ， 将 低 于 阔 值 的 所 有 值 赋 零 值 。 对 
非 极 大 值 抑 制 幅 值 进行 国 值 化 的 结果 是 一 个 图 像 [i,j] 的 边缘 阵列 。 阐 值 化 后 得 到 的 边缘 阵列 
仍然 有 假 边 缘 存 在 ， 原 因 是 闵 值 太 低 ( 假 正 确 ) 以 及 阴影 的 存在 ,使 得 边缘 对 比 度 减弱 ， 或 冰 
值 到 得 太 高 而 导致 部 分 轮廓 丢失 ( 假 错 误 )。 选 择 合适 的 阐 值 是 困难 的 ,需要 经 过 反复 试验 。 
一 种 更 有 效 的 国 值 方案 是 选用 两 个 靖 值 。 

双 阔 值 算法 对 非 极 大 值 抑 制图 像 N[i, 站 作用 双 阐 值 a 和 5， 且 =2 五 ， 得 到 两 个 阔 值 边缘 
图 像 五 [7 门 和 [i, 刘 。 由 于 图 像 T[i, 有 站 是 用 高 闽 值 得 到 的 ， 因 此 它 含 有 很 少 的 假 边 缘 ， 但 
7,[i, 站 可 能 在 轮廓 上 有 间断 〈 太 多 的 假 错 误 ) 。 双 阐 值 法 要 在 7,[i, 站 中 把 边缘 连接 成 轮廓 ， 
当 到 达 轮 廓 的 端点 时 ， 该 算法 就 在 也 [7 门 的 8- 邻 点 位 置 寻找 可 以 连接 到 轮廓 上 的 边缘 ， 这 样 ， 
算法 将 不 断 地 在 不 [5 门 中 收集 边缘 ， 直 到 将 7,[i,j] 中 所 有 的 间隙 连接 起 来 为 止 。 这 一 算法 是 
辣 值 化 的 副 产 物 ， 并 解决 了 国 值 选择 的 一 些 问 题 。 

Canny 算法 有 较 好 的 抑制 噪声 的 能 力 ， 可 以 较 完整 地 检测 出 边缘 ， 但 比 传统 边缘 微分 算 子 复 
杂 ， 运 算 速度 慢 。 另 外 ，Canny 算 子 的 双 阀 值 是 根据 全 局 特征 信息 来 决定 的 ， 这 导致 了 一 方面 无 
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像 己 视频 处 理 














法 消除 局 部 噪声 干扰 ， 男 一 方面 又 会 丢失 灰 度 值 变化 缓慢 的 局 部 边缘 ， 因 此 ， 可 以 通过 改进 双 阔 
值 的 选取 算法 提高 Canny 算 子 的 边缘 检测 性 能 。 


4.3.5 边缘 跟踪 


通过 前 面 描述 的 边缘 检测 算法 ， 我 们 能 得 到 且 只 能 得 到 那些 处 在 边缘 上 的 像素 点 ， 所 以 边 
缘 检 测 有 时 也 称 为 边缘 点 检测 。 但 是 由 于 噪声 和 不 均匀 光照 的 影响 ， 会 产生 边缘 的 间断 ， 使 得 经 
过 边缘 检测 后 得 到 的 边缘 像素 点 很 少 能 完整 地 描绘 实际 的 一 条 边缘 。 可 以 在 使 用 边缘 检测 算法 
后 ， 紧 接着 使 用 连接 方法 将 边缘 像素 组 合成 有 意义 的 边缘 ， 这 个 将 检测 的 边缘 点 连接 成 线 的 过 
程 就 是 边缘 跟踪 ， 也 称 为 边界 跟踪 。 

线 是 图 像 的 一 种 中 间 层 次 的 符号 描述 ， 它 使 图 像 的 表达 更 简洁 和 明确 。 将 边缘 点 连接 成 线 
( 即 边界 ) 的 方法 有 很 多 ,下面 主要 介绍 光栅 扫描 跟踪 法 和 轮廓 跟踪 法 。 

1. 光栅 扫描 跟踪 法 

光栅 扫描 跟踪 是 一 种 采用 电视 光栅 行 扫描 顺序 对 遇 到 的 像素 进行 分 析 ， 从 而 确定 是 否 为 边 
缘 的 跟踪 方法 。 光 栅 扫 措 跟踪 方法 的 基本 思想 是 先 利 用 检测 准则 确定 接受 对 象 点 ， 然 后 根据 被 
接受 的 对 象 点 和 跟踪 准则 确定 新 的 接受 对 象 点 ， 最 后 将 所 有 标记 为 1 且 相 邻 的 对 象 点 连接 起 来 就 
得 到 了 检测 到 的 细 曲 线 。 

使 用 光栅 扫描 跟踪 方法 ， 需 要 遵循 下 面 的 3 个 准则 。 

1) 参数 准则 : 需要 事先 确定 检测 阔 值 v、 跟 踪 阔 值 :， 且 要 求 L>t。 

2) 检测 准则 : 对 图 像 进行 逐 行 扫 描 ， 依 次 将 每 一 行 中 灰 度 值 大 于 或 等 于 检测 阔 值 4 的 所 有 
点 〈 称 为 接受 对 象 点 ) 的 位 置 记 为 1。 

3) 跟踪 准则 : 逐 行 扫描 图 像 ， 若 图 像 中 位 于 第 ; 行 的 点 (i,j) 为 已 接受 的 对 象 点 ， 则 在 第 
i+1 行 上 找 点 (i, 的 相 邻 点 (i+1,j-1)、(i+1,j) 和 (i+1,j+1)， 将 其 中 灰 度 值 大 于 或 
等 于 跟踪 阔 值 上 的 邻 点 确定 为 新 的 接受 对 象 点 ， 并 将 相应 位 置 记 为 1。 重复 此 过 程 ， 直 至 图 像 中 
除 最 末 一 行 以 外 的 所 有 接受 对 象 点 扫描 完 为 比 。 此 时 位 置 为 1 的 像素 点 连 成 的 曲线 即 为 检测 到 的 
边缘 。 

例如 ， 图 4-9a 所 示 为 一 
幅 原始 输入 的 含有 三 条 曲线 
的 模糊 图 像 ， 没 有 标 灰 度 值 
的 位 置 认为 其 灰 度 值 为 0。 假 
设 在 任何 一 点 上 ， 曲 线 斜率 
均 不 超过 90。， 现 在 要 从 该 图 
种 检测 出 这 些 曲线 。 使 用 光 
栅 扫 描 跟 踪 方 法 实现 边界 跟 
踪 的 具体 步骤 可 描述 如 下 。 

Q 确定 一 个 比较 大 的 阔 
值 4， 把 高 于 该 阔 值 的 像素 作 图 4-9 光 几 扫 描 跟 路 
为 对 象 点 ， 该 闵 值 被 称 为 检 
测 阔 值 ， 设 置 为 7。 

@) 选择 一 个 比较 低 的 阔 值 上 作为 跟踪 阔 值 ， 且 要 求 !:< dg， 该 闪 值 可 以 根据 不 同 准则 来 选择 ; 
本 例 中 取 相 邻 有 效 像素 点 之 灰 度 差 的 最 大 值 4 作为 跟踪 阔 值 ， 此 外 还 可 利用 其 他 参考 准则 来 选 
择 ， 如 梯度 方向 、 对 比 度 等 。 






















































































































































































a) 输入 图 像 b) 采用 光栅 跟踪 法 得 到 的 检测 结果 
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(3) 从 第 一 行 开 始 ， 根 据 检测 准则 扫描 图 像 ， 并 将 其 灰 度 值 大 于 或 等 于 检测 阔 值 4 的 所 有 
像素 点 的 位 置 记 为 1。 结果 在 图 4-9b 中 标记 为 中 。 

二 确定 跟踪 邻 域 ， 本 例 中 选取 像素 (区 7 的 下 一 行 像 素 (i+1,j-1)、(i+1,j)、(i+ 
1,7+1) 作为 跟踪 邻 域 。 

@ 从 第 二 行 起 逐 行 扫描 图 像 ， 并 按 跟 踪 准 则 将 灰 度 值 大 于 或 等 于 跟踪 阐 值 :=4 的 所 有 像素 
确定 为 新 的 接受 对 象 点 ， 且 将 其 相应 位 置 记 为 1， 结果 如 图 4-9b 所 示 。 

GO 对 于 已 检测 出 来 的 某 个 对 象 点 ， 如 果 在 下 一 行 跟踪 邻 域 中 ， 没 有 任何 一 个 像素 被 接受 为 
对 象 点 ,那么 这 一 条 曲线 的 跟踪 便 可 结束 。 如 果 同 时 有 两 个 ， 甚 至 三 个 邻 域 点 均 被 接受 为 对 象 
点 ， 则 说 明 曲 线 发 生 分 支 ， 跟 踪 需 对 各 分 支 同 时 进行 。 如 果 多 条 曲线 合并 成 一 条 曲线 ， 则 跟踪 可 
集中 于 一 条 曲线 上 进行 。 如 果菜 个 对 象 点 〈 在 步骤 加 产生 的 对 象 点 ) 在 上 一 行 的 对 应 邻 域 中 没 
有 对 象 点 ， 则 说 明 一 条 新 的 曲线 可 开始 。 

CO 重复 步骤 5) 和 步骤 6@)， 直 至 图 像 中 最 末 一 行 被 扫描 完 为 止 。 将 标记 为 1 (包括 中 ， 主 要 
是 为 了 便于 区 别 检 测 准 则 和 跟踪 准则 的 结果 ) 的 像素 连接 起 来 ， 就 得 到 了 检测 获得 的 结果 曲线 。 

应 该 指出 ， 检 测 准 则 和 跟踪 准则 所 依据 的 可 以 不 是 灰 度 级 ， 而 是 其 他 反映 局 部 性 质 的 量 , 例 
如 对 比 度 、 梯 度 等 。 跟 踪 准 则 也 可 以 不 仪 仅 针对 每 个 已 检测 出 的 点 ， 而 是 针对 已 检测 出 来 的 一 组 
点 。 这 时 ， 可 以 对 先后 检测 出 来 的 点 赋予 不 同 的 权重 ， 例 如， 后 检测 出 来 的 点 给 以 较 大 的 权重 ， 
而 先 检测 出 来 的 点 赋予 相对 小 一 些 的 权重 ， 利 用 被 检测 点 性 质 和 已 检 出 点 性 质 的 加 权 均 值 进行 
比较 ， 以 决定 接收 或 拒绝 。 

由 于 光栅 扫描 跟踪 和 扫描 方向 有 关 ， 如 果 边 缘 和 光栅 扫描 方向 平行 ， 则 跟踪 效果 不 好 ， 这 时 
最 好 在 垂直 扫描 方向 再 跟踪 一 次 。 

2. 轮廓 跟踪 法 

轮廓 跟踪 的 目的 是 找 出 目标 的 边缘 轮廓 。 轮 廓 跟踪 法 是 一 种 适用 于 黑白 二 值 图 像 的 图 像 分 
割 方法 ， 而 且 轮 廓 跟踪 改变 了 光栅 扫描 跟踪 中 扫描 方向 的 单一 的 缺点 ， 跟 踪 方 向 可 以 是 任意 方 
向 ， 并 且 有 足够 大 的 跟踪 距离 。 显 然 ， 轮 廓 跟踪 是 改变 了 邻 域 定义 和 跟踪 准则 的 一 种 二 值 图 像 的 
光栅 扫描 跟踪 法 。 

采用 轮廓 跟踪 法 进行 图 像 分 割 的 算法 步 又 如 下 。 

QD 在 靠近 边缘 处 任 取 一 起 始点 ， 然 后 按照 每 次 只 前 进一步 、 步 距 为 一 个 像素 的 原则 开始 
跟踪 。 

@ 当 跟 踪 中 的 某 一 步 是 由 白 区 进入 黑 区 时 ， 以 后 各 步 向 左 转 ， 直 到 穿 出 黑 区 为 止 。 

@) 当 跟 踪 中 的 某 一 步 是 由 黑 区 进入 白 区 时 ， 以 后 各 步 向 右 转 ， 直 到 穿 出 白 区 为 止 。 

(4) 当 围 绕 目标 边界 循环 跟踪 一 周 回 到 起 点 时 ， 所 跟踪 的 轨迹 便 是 目标 的 轮廓 ， 否则 ， 应 继 
续 按 步 又 四 和 步骤 中) 的 原则 进行 跟踪 。 

在 轮廓 跟踪 中 需要 注意 以 下 两 种 情况 。 

1) 目标 中 的 某 些小 凸 部 分 可 能 因 被 迁 回 过 去 而 被 漏 掉 ， 如 岁 4-10a 左下 部 所 示 。 避 免 这 种 
情况 的 常用 方法 是 选取 不 同 的 多 个 起 始点 进行 多 次 重复 跟踪 ， 如 图 4-10b 所 示 ， 然 后 选择 相同 的 
跟踪 轨迹 作为 目标 轮廓 。 

2) 由 于 这 种 跟踪 方法 可 形象 地 看 作 是 一 个 朴 虫 在 朴 行 ， 所 以 又 称 为 “ 疏 虫 跟踪 法 ”。 当 出 
现 围绕 某 个 局 部 的 闭合 小 区 域 重 复 候 行 而 回 不 到 起 点 时 ， 就 出 现 了 扑 虫 掉 进 陷阱 的 情况 。 防 止 
疏 虫 掉 进 陷阱 的 一 种 方法 是 让 爬虫 具有 记忆 能 力 ， 当 疏 行 中 发 现在 走 重复 的 路 径 时 ， 便 退回 原 
起 始点 ， 并 重新 入 择 起 始点 和 耻 行 方向 进行 轮 谭 路 辽 。 

从 上 面 的 描述 中 可 以 看 到 ， 轮 廓 跟踪 改进 了 光栅 扫描 跟踪 法 ,跟踪 时 把 初始 点 的 8- 邻 域 点 


第 4 章 |117 


I 
































































































































有 















































































































































四 ) 数字 图 像 与 视频 处 理 





















































a) 某 些 小 凸 部 分 可 能 被 漏 掉 b) 利用 不 同 起 点 跟踪 小 凸 部 分 
图 4-10 轮廓 跟踪 示意 图 


全 部 考虑 进行 跟踪 。 图 4-10 就 是 一 个 轮廓 跟踪 法 的 示例 ， 其 中 图 4-10a 是 采用 轮廓 跟踪 的 过 程 
和 所 得 到 的 结果 ， 从 图 中 可 见 ， 由 于 选择 的 起 点 的 影响 ， 导 致 黑色 小 凸 部 分 被 漏 掉 。 在 图 4-10b 
中 采用 了 不 同 的 起 点 ， 从 而 能 够 跟踪 得 到 小 凸 部 分 。 由 此 可 见 ， 采 用 轮廓 跟踪 法 ， 超 点 的 选择 可 
能 导致 不 同 的 结果 ， 在 具体 使 用 算法 时 ， 需 多 选择 几 个 起 点 进行 跟踪 ， 以 综合 判断 并 得 到 最 优 
边界 。 


4.4 基于 区 域 的 图 像 分 割 


基于 区 域 的 图 像 分 割 是 以 直接 寻找 区 域 为 目的 的 图 像 分 制 技术 ， 其 原理 不 同 于 国 值 化 分 割 
和 边缘 检测 ， 不 需要 直接 利用 阔 值 或 者 边界 来 划分 图 像 。 基 于 区 域 的 图 像 分 割 的 实质 就 是 把 具 
有 某 种 相似 性 质 的 像素 或 者 子 区 域 连通 起 来 ， 从 而 最 终 构 成 分 割 区 域 。 它 利用 了 像素 的 局 部 空 
间 信 息 ， 可 以 有 效 地 克服 图 像 分 割 不 连续 的 缺点 ,但 它 有 时 会 造成 图 像 的 过 分 割 。 一 般 来 讲 ， 传 
统 的 基于 区 域 的 图 像 分 割 方法 有 两 种 : 中 区 域 生长 法 ; 包 区 域 分 裂 与 合并 法 。 


4.4.1 区 域 生 长 法 


区 域 生 长 ( Region growing) 也 称 为 区 域 增长 ， 其 基本 思想 是 根据 事先 定义 的 相似 性 准则 ， 
将 图 像 中 满足 相似 性 准则 的 像素 或 子 区 域 聚 合成 更 大 区 域 的 过 程 。 区 域 生长 的 基本 方法 是 : 首 
先 要 确定 竺 分割 的 区 域 数目 ， 在 每 个 需要 分 割 的 区 域 中 找 一 个 “种 子 ” ( 可 以 是 单个 像素 ， 也 
可 以 是 茶 个 小 区 域 ) 作为 生长 的 起 点 ， 然 后 将 种 子 周围 邻 域 中 与 种 子 有 相同 或 相似 性 质 的 像素 
合并 到 种 子 所 在 的 区 域 中 ， 接 着 以 合并 成 的 区 域 中 的 所 有 像素 作为 新 的 种 子 ， 重 复 上 述 的 相似 
性 判别 与 合并 过 程 ， 直 到 再 没有 满足 相似 性 条 件 的 像素 可 被 合并 进来 为 止 。 这 样 就 使 得 满足 相 
似 性 条 件 的 像素 就 组 成 (生长 成 ) 了 一 个 区 域 。 种 子 和 相 邻 小 区 域 的 相似 性 判 据 可 以 是 灰 度 、 
纹理 ， 也 可 以 是 色彩 等 多 种 图 像 要 素 特性 的 量化 数据 。 

在 实际 应 用 区 域 生长 法 进行 图 像 分 割 时 ,需要 解决 以 下 3 个 关键 问题 。 

1) 确定 区 域 的 数目 ， 也 就 是 选择 或 确定 一 组 能 正确 代表 所 需 区 域 的 种 子 。 

2) 确定 在 生长 过 程 中 将 相 邻 像素 合并 进来 的 相似 性 准则 。 

3) 确定 终止 生长 过 程 的 条 件 或 规则 。 
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1. 选择 或 确定 种 子 的 一 般 原 则 

选择 “种 子 ”是 进行 区 域 生长 的 第 一 步 ， 是 后 续 处 理 的 关键 ， 种 子 选 择 是 否 合理 直接 关系 
到 区 域 生 长 出 的 目标 是 否 正确 。 若 种 子 数目 太 多 ， 则 会 造成 过 分 割 ; 反之 ， 若 种 子 数 目 太 少 ， 又 
会 丢失 目标 信息 ， 使 目标 分 割 不 完整 。 

选择 和 确定 一 组 能 正确 代表 区 域 的 种 子 的 一 般 原 则 如 下 。 

1) 接近 聚 类 重心 的 像素 可 作为 种 子 像素 , 例如， 直方 图 中 像素 最 多 且 处 在 聚 类 中 心 的 
像素 。 

2) 红外 图 像 目 标 检测 中 最 亮 的 像素 可 作为 种 子 像 素 。 

3) 按 位 置 要 求 确定 种 子 像素 。 

4) 根据 某 种 经 验 确定 种 子 像素 。 

种 子 像素 的 选取 可 以 通过 人 工交 互 的 方式 实现 ， 也 可 以 根据 目标 中 像素 的 某 种 性 质 或 特点 自动 
选取 。 最 初 的 种 子 像 素 可 以 是 某 一 个 具体 的 像素 ， 也 可 以 是 由 多 个 像素 点 聚集 而 成 的 种 子 区 。 

2. 生长 准则 和 过 程 

区 域 生长 的 一 个 关键 是 选择 适合 的 生长 准则 ， 大 部 分 区 域 生 长 准则 使 用 图 像 的 局 部 性 质 。 
生长 准则 的 选取 不 仅 依赖 于 具体 问题 本 身 ， 也 和 所 用 图 像 数据 的 种 类 有 关 。 生 长 准则 可 根据 不 
同 的 原则 制定 ， 而 使 用 不 同 的 生长 准则 会 影响 区 域 生长 的 过 程 。 

在 生长 过 程 中 能 将 相 邻 像素 合并 进来 的 相似 性 准则 主要 有 如 下 几 点 。 

1) 当 图 像 是 彩色 图 像 时 ， 可 以 各 颜色 为 准则 ， 并 考虑 像素 间 的 连通 性 和 邻近 性 。 

2) 待 检测 像素 点 的 灰 度 值 与 已 合并 成 的 区 域 中 所 有 像素 点 的 平均 灰 度 值 满足 某 种 相似 性 
准则 。 

3) 待 检测 点 与 已 合并 成 的 区 域 构成 的 新 区 域 符合 某 个 大 小 尺寸 或 形状 要 求 等 。 

下 面 介绍 一 种 基于 区 域 灰 度 差 的 生长 准则 和 方法 ， 其 主要 步骤 如 下 。 

@ 对 图 像 进行 逐 行 扫描 ， 找 出 尚 没有 归属 的 像素 。 

@ 以 该 像素 为 中 心 检查 它 的 邻 域 像素 ， 即 将 这 个 像素 灰 度 同 其 周围 邻 域 中 不 属于 任何 一 个 
区 域 的 像素 进行 比较 ， 若 灰 度 差 值 小 于 某 一 靖 值 ， 则 将 它 合 并 进 同 一 个 区 域 ， 并 对 合并 的 像素 赋 
了 予 标记 。 

@) 以 新 合并 的 像素 为 中 心 ， 返 回 到 步 又 2D， 检 查 新 像素 的 邻 域 ， 直 到 区 域 不 能 进一步 扩张 。 

@ 返回 到 步骤 @， 继 续 扫 描 ， 直 到 不 能 发 现 没 有 归属 的 像素 ， 则 结束 整个 生长 过 程 。 

这 种 方法 简单 ， 但 如 果 区 域 之 间 的 边缘 灰 度 变化 很 平缓 或 边缘 交 于 一 点 时 ， 两 个 区 域 会 合 
并 起 来 。 为 克服 这 个 问题 ， 在 步骤 @ 中 不 是 比较 相 邻 像素 灰 度 ， 而 是 比较 已 存在 区 域 的 像素 灰 度 
平均 值 与 该 区 域 邻接 的 像素 灰 度 值 。 

3. 终止 生长 过 程 的 条 件 或 规则 

最 后 ， 确 定 终止 生长 的 条 件 一 般 是 生长 过 程 进行 到 没有 满足 生长 准则 的 像素 为 止 ， 或 生长 
区 域 满足 所 需 的 尺寸 、 形 状 等 全 局 特性 。 
4.4.2 区域 分 裂 与 合并 法 

分 裂 与 合并 分 割 法 是 从 整个 图 像 出 发 ， 根 据 图 像 和 各 区 域 的 不 一 致 性 ， 把 图 像 或 区 域 分 裂 
成 新 的 子 区 域 ; 根据 相 邻 区 域 的 一 致 性 ， 把 相 邻 的 子 区 域 合并 成 新 的 较 大 区 域 。 分 裂 与 合并 分 割 
法 的 基础 是 图 像 的 四 叉 树 表示 。 

1. 图 像 的 四 叉 树 表示 
如 果 把 整 幅 图 像 分 成 大 小 相同 的 4 个 方形 象限 区 域 ， 并 接着 把 得 到 的 新 区 域 进 一 步 分 成 大 小 
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四 ) 数字 图 像 与 视频 处 理 


相同 的 4 个 更 小 的 象限 区 域 ， 如 此 不 断 
分 割 下 去 ， 就 会 得 到 一 个 以 该 图 像 为 树 
根 ， 以 分 成 的 新 区 域 或 更 小 区 域 为 中 间 
结 点 或 树叶 结 点 的 四 又 树 ， 如 图 4-11 









































所 示 。 Cs) Co) Cs) Cy) 
2. 分 裂 与 合并 分 审 法 » 
区 域 的 分 列 与 合并 是 将 图 像 划分 为 图 4-11 图像 的 四 叉 材 表示 











一 系列 不 相交 的 、 一 致 性 较 强 的 小 区 
域 ， 然 后 再 按照 一 定 的 规则 对 小 区 域 进行 划分 或 合并 ， 最 终 达 到 图 像 分 割 的 目的 。 区 域 分 裂 与 合 
并 不 需 设 定 “种 子 ”， 只 需 给 定 相 似 测度 和 同 质 测度 ， 如 果 两 个 相 邻 子 区 域 满 足 相 似 测 度 ， 则 将 
其 合并 ; 如 果子 区 域 不 满足 同 质 测度 ， 则 将 其 拆 分 。 

令 R 表 示 整 个 图 像 区 域 ， 用 R, 表示 分 裂 成 的 一 个 图 像 子 区 域 ，P(. ) 代表 逻辑 谓词 ， 如 果 
同一 区 域 R, 中 的 所 有 像素 满足 某 一 相似 性 准则 ， 则 P(R,) = TRUE， 否 则 P(R,) =FALSE。 对 RR 
进行 分 裂 的 一 种 方法 是 反复 将 分 裂 得 到 的 结果 图 像 再 次 分 为 4 个子 区 域 ， 直 到 对 任何 子 区 域 R, 
都 满足 P (R) =TRUE。 具 体 的 分 裂 过 程 是 ， 从 整 幅 图 像 开 始 ， 如 果 P(R,) =FALSE， 就 将 
图 像 分 裂 为 4 个 子 区 域 ， 对 分 裂 后 得 到 的 任何 子 区 域 ， 如 果 依 然 有 P(R,) = FALSE， 就 可 以 再 
次 分 型 为 4 个 子 区 域 ; 以 此 类 推 ， 直 到 对 任何 子 区 域 尺 都 满足 P(R,) =TRUE。 在 这 种 分 裂 过 
程 中 ,必定 存 在 R; 的 某 个 子 区 域 员 与 RR, 的 某 个 子 区 域 R, 的 像素 满足 某 一 相似 性 准则 ， 即 满 
足 P(RUR) =TRUE， 这 时 就 可 以 将 RR 与 RR 合并 组 成 新 的 区 域 。 

总 结 前 面 的 讨论 ， 可 以 得 到 基本 的 分 裂 与 合并 分 割 法 的 步 又 如 下 。 

Qa 将 图 像 尺 分 成 4 个 大 小 相同 、 互 不 重 琶 的 子 区 域 尺 (=1,， 2, 3, 4)。 

@ 对 任何 区 域 尺 ， 如 果 P(R,) =FALSE ， 则 将 该 区 域 再 进一步 分 裂 为 4 个 不 重 芭 的 子 区 域 。 

@@ 如 果 此 时 存在 任意 相 邻 的 两 个 子 区 域 郧 与 RR 使 P(R UR,) =TRUE 成 立 ， 就 将 RR 与 RR 
合并 组 成 新 的 区 域 。 

由 重复 步骤 @@ 和 (G)， 直 到 无 法 进行 拆 分 和 合并 为 止 。 

若 图 像 为 灰 度 图 像 ， 同 一 区 域内 相似 度 测 量 的 一 种 可 行 性 标准 为 : 同一 区 域 R, 内 至 少 有 
80% 的 像素 满足 | z -m;1 <20, 时 ，P(R) =TRUE， 且 将 尺 内 所 有 像素 的 灰 度 值 置 为 m,; 否 
则 ， 就 要 对 其 进行 进一步 分 裂 。 其 中 ,，z 是 区 域 R, 内 的 第 j 个 像素 的 灰 度 值 ，m, 是 区 域 R, 内 所 
有 像素 的 灰 度 值 的 均值 ，o, 是 区 域 R, 内 所 有 像素 的 灰 度 值 的 标准 差 。 

对 某 一 区 域 是 否 需要 进行 分 裂 和 对 相 邻 区 域 是 否 需要 合并 的 准则 应 该 是 一 致 的 ， 常 用 的 一 
些 准则 如 下 。 

1) 同一 区 域 中 最 大 灰 度 值 与 最 小 灰 度 值 之 差 或 方差 小 于 某 选 定 的 阔 值 。 

2) 两 个 区 域 的 平均 灰 度 值 之 差 及 方差 小 于 某 个 选 定 的 贱 值 。 

3) 两 个 区 域 的 灰 度 分 布 函 数 之 差 小 于 某 个 选 定 的 阔 值 。 

4) 两 个 区 域 的 某 种 图 像 统 计 特 征 值 的 差 小 于 等 于 某 个 阔 值 。 


4.5 基于 主动 轮廓 模型 的 图 像 分 割 


传统 的 图 像 分 割 方法 仅 依赖 图 像 本 身 的 灰 度 、 边 缘 、 纹 理 等 低层 视觉 属性 ， 不 使 用 高 层 信息 
(如 先 验 知识 ) 。 因 此 ， 这 类 方法 虽然 计算 简单 ， 但 易 受 噪声 或 者 伪 边 缘 的 影响 产生 不 理想 的 分 
割 效果 ， 并 且 没 有 好 的 约束 机 制 ， 只 能 利用 图 像 的 局 部 信息 ， 很 难 提 取 图 像 的 全 局 特征 。 因 此 ， 
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学 者 们 研究 出 了 一 种 称 为 主动 轮廓 模型 (Active Contour Model， ACM) 的 灵活 框架 ， 将 图 像 的 低 
层次 视觉 属性 与 人 们 对 于 竺 分割 目标 的 知识 和 经 验 有 机 地 结合 起 来 ， 从 而 得 到 待 分割 区 域 的 完 
整 表达 。 

主动 轮廓 模型 及 其 改进 模型 被 广泛 应 用 在 自然 图 像 、 遥 感 图 像 、 医 学 图 像 等 处 理 中 。 根 据 轮 
廊 曲 线 的 不 同 表示 方式 ， 主 动 轮廓 模型 大 人 致 可 以 分 为 参数 主动 轮廓 模型 (Parametric Active Con- 
tour Model) 和 几何 主动 轮廓 模型 (Geometric Active Contour Model) 两 大 类 。 


4. 5.1 参数 主动 轮廓 模型 


在 参数 主动 轮廓 模型 中 ， 曲 线 由 一 些 规则 排列 的 不 连续 点 组 成 ,或 通过 一 些 基 耳 数 (例如 B 
样 条 ) 来 描述 。 此 类 模型 以 Snake 模型 为 代表 ， 以 及 它 的 一 些 改进 模型 。 

Snake 模型 由 Kass 等 人 提出 ， 并 很 快 在 图 像 分 割 、 视 频 跟 踊 等 相关 领域 中 得 到 广泛 应 用 。 该 
模型 构建 了 一 个 能 量 泛 本 ， 通 过 设计 模型 中 的 能 量 项 ， 将 要 分 割 的 图 像 形 状 、 亮 度 和 色彩 的 特性 
等 先 验 知识 和 图 像 的 底层 数据 信息 通过 能 量 函 数 的 形式 融合 在 一 起 ， 用 该 能 量 泛 函 表示 对 待 分 
割 目标 的 完整 表达 ， 并 且 将 图 像 分 割 问题 转化 为 能 量 泛 函 极 小 值 的 求解 问题 。 它 在 图 像 上 初始 
化 一 条 闭合 曲线 ， 曲 线 在 内 能 和 外 能 的 共同 作用 下 不 断 演化 ， 当 能 量 泛 函 取得 极 小 值 时 ， 曲 线 停 
止 形变 ， 此 时 闭合 曲线 恰好 与 目标 的 边缘 重合 。 之 所 以 称 为 “主动 "， 是 因为 这 是 一 种 自主 形 
变 , 不 需要 用 户 的 交互 。 其 中 ， 内 能 由 曲线 内 部 性 质 决定 ， 它 定义 了 一 个 可 伸 长 和 可 弯曲 的 轮廓 
曲线 形变 能 量 项 ， 来 约束 轮廓 曲线 的 连续 性 与 光滑 性 。 外 能 是 由 图 像 信息 ( 如 全 局 统计 信息 、 
局 部 统计 信息 、 边 界 信 息 等 ) 决定 ， 吸 引 曲 线 到 达 目 标的 边缘 。 它 没有 统一 的 表达 式 ， 可 根据 
图 像 特征 和 用 户 自身 需要 来 构建 。 外 部 能 量 决定 活动 轮廓 的 运动 方向 ， 外 部 能 量 引 导 曲 线 向 目 
标 边 界 靠近 。 

Snake 模型 的 基本 原理 如 下 。 

用 wv(s) =[x(s),y(s)] 表示 曲线 ，* 为 曲线 的 参数 且 se[0,1], x(s) 和 y(s) 分 别 表示 轮 
廓 点 处 的 x 和 y 的 坐标 ， 则 能 量 泛 函 的 表达 式 为 


1 
Esse = | Blots)) 
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= {Elo(s)) + Elo(s)) (4-40) 


= | ECs)) + Bi (0(s)) + E(w(s)) ds 
式 中 ， 内 部 能 量 已, 约束 轮廓 的 连续 性 和 光滑 性 ， 图 像 力 ,推动 曲线 向 图 像 的 显著 特征 如 线 、 


边缘 和 主观 轮廓 靠近 ， 外 部 约束 力 五 ,使 曲线 到 达 期 望 的 能 量 局 部 极 小 值 处 ， 是 各 种 人 为 设 定 的 
约束 条 件 。E,,,. 和 ,统称 外 部 能 量 E.,。 
内 部 能 量 ,的 表达 式 为 
E,,=(a(s) lv (s) | +B(s) 1v(s) 1 )/2 (4-41) 


式 中 ， 一 阶 项 w() = 2 于 和 二 阶 项 ww(s) = 一 2 分 别 保证 轮廓 的 连续 性 和 光滑 性 。 权 重 系数 


a(s) 、B(s) 分 别 用 于 控制 模型 扩张 和 弯曲 的 强度 ， 分 别称 为 弹力 系数 、 强 度 系数 ， 其 值 大 小 与 
图 像 噪声 有 关 ， 噪 声 越 大 其 值 也 越 大 ， 这 使 得 Snake 轮廓 曲线 受 噪声 影响 小 。 在 实际 应 用 中 ， 为 
了 简化 Snake 模型 的 求解 ， 可 以 把 a(s) 和 pB(s) 都 设置 为 常量 。 

图 像 力 E,,,. 表 示 图 像 某 种 特征 的 势能 面 ， 具体 用 哪些 项 ， 可 根据 实际 应 用 来 决定 ， 比 如 下 
式 采 用 三 项 来 表示 图 像 特 征 。 
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像 己 视频 处 理 











E ne Wine Ene + Ouiek i Wem Ei (4-42) 
式 中 ，Pi,.、Bic 和 ,分 别 为 线 泛 函 、 边 缘 泛 函 和 末端 泛 函 。 


对 给 定 的 灰 度 图 像 (x，y) ， 有 


edge 


Ei ={(%,y) (4-43) 
wi 小 于 零 时 ， 它 将 吸引 轮廓 向 灰 度 值 大 的 地 方 运动 ，w,. 大 于 零 时 ， 它 将 吸引 轮廓 向 灰 度 值 小 
的 地 方 运动 。 
当 只 对 边缘 感 兴趣 时 候 ， 可 以 将 wi 和 w， 都 置 为 0。 此 时 ， 对 灰 度 图 像 T(x,，y) 来 说 ， 
,的 表达 式 为 








Es = -ylVI(x,y) 1 (4-44) 
式 中 ，V 为 梯度 算 子 ; y 为 权重 。 它 将 吸引 轮廓 向 强 边缘 处 运动 (默认 情况 下 权重 大 于 零 ) 。 当 
考虑 到 图 像 中 存在 噪声 时 ， 可 以 先进 行 高 斯 滤波 处 理 后 再 进行 梯度 的 计算 ， 即 

Es = -YG (x,y) * VICx,y) 1 (4-45) 
式 中 ，6, 为 标准 差 为 o 的 二 维 高 斯 函数 ，* 代表 卷 积 运算 。 

已， 是 用 高 斯 函数 平滑 过 的 图 像 中 各 级 轮廓 线 的 曲率 。 

经 典 Snake 模型 要 求 初 始 轮廓 线 距 离 目 标 边 缘 较 近 ， 后续 人 研究 者 们 提出 的 “气球 (Bal- 
loon) ”模型 ， 在 外 力 中 增加 了 膨胀 力 来 控制 轮廓 线 的 膨胀 或 收缩 ， 改 善 了 Snake 对 初始 轮廓 的 
敏感 性 ， 并 且 能 够 跨越 图 像 中 的 伪 边 
缘 点 。 另 一 方面 ， 因 Snake 模型 的 外 















































i 十 十 十 十 十 十 十 十 十 十 十 十 + 


























+ Wg 
+ + 再 
部 能 量 作 用 范围 有 限 ， 无 法 收敛 到 轮 1 
廓 的 深度 凹陷 区 域 ， 所 以 ， 基 于 梯度 + + 
矢量 流 (Gradient Vector Flow，GVF) + -ss 4 
十 
的 Snake 模型 设计 了 一 种 新 的 外 部 力 ， + 0 + 
此 外 部 力 在 整个 图 像 域 上 计算 梯度 “+ 十 + + 二 二 二 二 
场 ， 扩 大 了 轮廓 线 的 捕获 范围 ， 并 能 9) 加 的 分 负 b) 手 的 分 审 
使 它 进 入 深度 四 陷 区 。 图 4-12 采用 经 典 Snake 模型 的 图 像 分 割 效果 
图 4-12 所 示 为 采用 经 典 Snake 模 其 中 : + 代表 初始 轮廓 控制 点 ，* 代表 最 终 收缩 点 ) 





























型 的 图 像 分 割 效果 。 从 图 中 可 以 看 出 ， 采 用 经 典 Snake 模型 不 能 收敛 到 凹陷 处 。 
4.5.2 儿 何 主动 轮廓 模型 


依赖 于 轮廓 线 的 参数 化 的 模型 ， 存 在 如 下 缺点 : 对 初始 轮廓 线 位 置 比较 敏感 ， 容 易 收 敛 至 局 
部 极 值 ， 尤 其 是 难以 处 理 轮廓 线 的 分 裂 或 合并 等 。 为 此 ， 学 者 们 提出 了 几何 主动 轮廓 模型 。 在 这 
类 模型 中 ， 曲 线 的 运动 过 程 基于 曲线 的 几何 度量 参数 (如 曲率 和 法 向 矢量 等 ) ， 而 非 曲 线 的 表达 
参数 ， 其 基础 是 曲线 进化 理论 以 及 水 平 集 (Level Set) 思想 ， 因 此 ， 基 于 水 平 集 方法 的 几何 主动 
轮廓 模型 也 常 简称 为 水 平 集 方法 。 在 该 模型 中 将 轮廓 线 看 作 演化 曲线 ， 通 过 求解 其 演化 方程 所 
对 应 的 水 平 集 函 数 ， 得 到 主动 轮廓 线 的 收银 位 置 。 根 据 构 造 能 量 函 数 时 所 使 用 的 图 像 信 息 的 不 
同 ， 可 以 将 几何 主动 轮廓 模型 细 分 为 三 类 : 基于 边界 的 几何 主动 轮 廊 模型、 基于 区 域 的 几何 主动 
轮廓 模型 以 及 边界 和 区 域 结合 的 混合 模型 。 

1. 基于 边界 的 几何 主动 轮廓 模型 

基于 边界 的 主动 轮廓 模型 在 构造 能 量 函 数 时 ， 推 动 曲线 演化 的 外 力主 要 是 基于 图 像 的 梯度 信息 
来 构造 的 。 此 类 模型 对 梯度 变化 大 的 图 像 较 有 效 ， 代 表 模 型 为 隐 式 几何 主动 轮廓 模型 (Implicit 
Geometric Active Contour Model) 、 隐 式 测 地 线 主动 轮廓 模型 (Implicit Geodesic Active Contour Model ) 、 
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结合 隐 式 几何 主动 轮廓 模型 和 测 地 线 主动 轮廓 模型 的 统一 模型 。 

隐 式 几何 主动 轮廓 模型 是 20 世纪 90 年 代 初 由 Caselles 等 提出 的 ， 也 是 出 现 最 早 的 水 平 集 模 
型 。 该 模型 的 主要 思想 是 : 以 演化 曲线 的 平均 曲率 运动 以 及 待 分 割 图 像 的 梯度 信息 两 者 为 基础 
来 构建 水 平 集 方法 的 能 量 函 数 。 模 型 本 身 并 不 依赖 于 参数 的 选取 ， 而 是 直接 通过 求解 水 平 集 数 
值 解 的 方法 来 处 理 曲 线 在 演化 过 程 中 拓扑 结构 的 变化 。 

隐 式 几何 主动 轮廓 模型 在 图 像 的 对 比 度 较 好 并 且 目 标 区 域 边界 比较 清晰 的 情况 下 ， 用 此 方 
法 可 以 取得 很 不 错 的 分 割 效果 。 然 而 ， 该 模型 存在 边界 泄漏 问题 ， 在 目标 边界 有 间断 点 的 情况 下 
效果 很 差 。 为 了 解决 这 个 问题 ，1997 年 Caselles 等 在 此 基础 上 ， 以 黎 曼 (Riemannian) 空间 最 小 测 
地 距离 理论 为 基础 ， 提 出 了 一 种 改进 模型 即 测 地 线 主 动 轮廓 模型， 其 主要 思想 是 将 边缘 检测 转 
化 为 曲线 加 权 长 度 的 最 小 化 ， 即 测 地 线 长 度 的 最 小 化 。 

此 外 ， 还 可 以 将 隐 式 几何 主动 轮廓 模型 和 测 地 主动 轮廓 模型 相 结 合 ， 形 成 统一 模型 (Unified 
Model ) 。 

2. 基于 区 域 的 几何 主动 轮廓 模型 

基于 区 域 的 主动 轮廓 模型 直接 使 用 轮廓 内 部 和 外 部 区 域 的 像素 强度 信息 ， 根 据 区 域 统计 特 
性 对 同 质 区 域 分 制 ， 不 再 使 用 梯度 信息 ， 所 以 受 边界 影响 较 弱 ， 具 有 一 定 的 抗 品 性 。 因 此 对 梯度 
变化 比较 小 或 者 边界 比较 模糊 的 图 像 ， 以 及 噪声 比较 大 的 图 像 都 能 获得 较 好 的 分 割 效 果 ， 代 表 
模型 为 多 种 基于 Mumford-Shah 模型 的 分 割 模型 。 

按照 能 量 泛 函 中 区 域 能 量 项 的 定义 ， 又 可 以 分 为 以 下 几 种 类 型 。 

(1) 基于 分 片 光 滑 函 数 拟 合 的 主动 轮廓 模型 

该 模型 通过 分 片 光 滑 表 数 的 最 佳 逼 近 ( 即 著 名 的 Mumford- Shah 泛 函 ) 来 解决 目标 边界 检测 
问题 。Mumford- Shah 模型 的 能 量 泛 函 表达 式 为 

E(1,C) = «| 7- 了 12dzdy+B | | VT12dxdy + yLength( C) (4-46) 


{VC 


式 中 ，QCR? 是 开 集 ; 7 为 定义 在 O 上 的 待 分 割 图 像 ， 7 为 最 终 得 到 的 分 割 图 像 ;C 为 竺 分割 图 
像 中 目标 区 域 的 边界 轮廓 曲线 的 点 集 ; Length(C) 为 目标 区 域 边界 长 度 ; a、B、y > 0。 式 (4-46 ) 
右边 的 第 一 项 为 保 真 项 ， 用 来 表示 分 割 图 像 与 原始 图 像 相 似 度 ; 第 二 项 为 平滑 项 ， 用 来 使 分 割 效 果 
保持 足够 的 平滑 ; 第 三 项 为 约束 项 ， 用 来 约束 目标 区 域 边界 曲线 的 长 度 。 相 比 Snake 模型 ， 该 模型 
将 图 像 的 去 噪 和 边缘 检测 统一 在 一 个 模型 中 ， 控 制 了 低层 的 误差 扩散 ， 而 Snake 模型 对 噪声 敏感 。 

(2) 基于 分 片 常 数 拟 合 的 主动 轮廓 模型 

因 Mumford- Shah 模型 求解 较 复杂 ， 所 以 需要 对 它 进行 简化 。 简 化 后 的 模型 称 为 分 片 常数 拟 
合 的 Mumford-Shah 模型 ， 又 称 为 Chan- Vese(CV) 模型 ， 其 能 量 泛 函 表 达 式 为 

E(C,ci,c,) = Length(C) +vArea(inside(C) ) 





















































































































































es 















































































































































| | T(x,y) -cl?drdy +%| | T(x,y) -cc, 1 dxdy J 
inside( CY outside( CY 
式 中 ,C 为 边界 曲线 ; inside(C) 为 曲线 C 之 内 区 域 ( 即 目 标 区 域 ); outside(C) 为 曲线 之 外 区 
域 ， Length(C) 为 C 的 长 度 ; Area(inside(C) ) 为 曲线 C 之 内 区 域 的 面积 ，c,、c, 分 别 为 目标 和 
背景 两 个 同 质 区 域 的 平均 灰 度 ; jw、v、 负 、 罗 为 系数 。 
CV 模型 不 含 图 像 的 梯度 项 ， 所 以 也 被 称 为 无 边缘 (或 无 梯度 ) 的 主动 轮廓 模型 ， 它 将 待 分 
割 图像 分 为 目标 区 域 和 背景 ， AR 数 ， 但 正 因 为 CV 模型 
分 割 时 利用 分 段 常 量 来 表示 分 片 光滑 区 域 的 均值 ， 再 利用 能 量 泛 函 最 小 化 方法 来 最 优 到 近 均值 
相似 的 区 域 ， 所 以 只 对 均匀 图 像 分 割 有 较 好 的 效果 。 
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(3) 基于 区 域 的 组 合 主动 轮廓 模 

此 类 模型 组 合 了 全 局 区 域 拟 合 能 
图 像 时 ， 易 陷入 局 部 极 小 值 的 缺陷 。 

3. 基于 边界 和 区 域 的 混合 模型 

为 了 使 主动 轮廓 模型 既 具 有 较 好 的 边缘 定位 能 力 ， 又 具有 一 定 的 抗 品 性 能 ， 可 以 将 基于 边 
界 和 基于 区 域 的 模型 进行 组 合 形成 混合 模型 。 采 用 混合 模型 时 需要 考虑 的 问题 是 如 何 设 定 两 个 
模型 各 自 的 权重 。 采 用 固定 权重 的 混合 模型 较为 方便 ， 但 它 对 初始 轮廓 依赖 度 高 或 对 不 同 图 像 
适应 性 差 。 因 此 ， 可 以 采用 可 变 权重 来 设计 组 合 模型 。 








地 上 峙 














与 局 部 区 域 拟 合 能 量 ， 能 够 克服 单一 模型 在 分 割 不 均匀 




































































4.6 MATLAB 编程 实例 








【 例 4-1】 请 编写 利用 迭代 法 进行 图 像 分 割 的 MATLAB 程序 。 
解 : MATLAB 代码 如 下 。 

clear all 

% 读 入 图 像 

I =imread( 'cameraman. tif' ) ; 

和 计算 图 像 的 灰 度 最 小 值 和 最 大 值 


tmin = min(I(:)); 














tmax = max(I(:)); 
% 设 定 初始 国 值 
th = (tmin +tmax)/2; 


% 定 义 开 关 变 量 ,用 于 控制 循环 次 数 





ok = true; 
和 友 代 法 计算 阔 值 
while ok 
gl =1>= th; 
22 三 正光 th; 
ul = mean(I(g])); 
u2 = mean(I(g2)); 


thnew = (ul +u2)/2; 
% 设 定 两 次 国 值 的 比较 当 满 足 小 于 1 时 停止 循环 
ok = abs(th -thnew) > = 1; 
th = thnew; 
end 
th = floor( th); 
% 阅 值 分 割 
J] = im2bw(1,th/255); 
% 结果 显示 
figure( 1); 
imshow(1) ;title( ' 原 始 图 像 ' ); 
figure(2) ; 
str = [ ' 迭 代 分 割 : 浆 值 Th = ' ,num2str(th) ] ; 
imshow(J) ; 
title(str) ; 
【 例 4-2】 请 编写 利用 最 大 类 间 方 差 闵 值 分 割 法 ( Otsu 算法 ) 进行 图 像 分 割 的 MATLAB 程序 。 
解 : MATLAB 中 提供 了 计算 最 大 类 间 方 差 闵 值 分 割 的 阅 值 隐 数 graythresh。 该 函数 的 语法 格 
式 为 
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为 














level = graythresh(J) 





level = graythresh(I) 根据 最 大 类 间 方 差 阐 值 分 割 法 计算 全 局 贱 值 ， 函 数 返 回 的 阅 值 的 取 值 范 

















于 为 [0, 1] ， 输 入 的 图 像 I 可 以 是 uint8 、uint16 或 double 型 。 
利用 最 大 类 间 方差 冰 值 分 割 法 ( Otsu 算法 ) 进行 图 像 分 割 的 MATLAB 代码 如 下 。 
clear all 
% 读 入 图 像 
I =imread( 'cameraman. tif' ); 
% 计 算 国 值 
th = graythresh(1); 
% 图 像 分 割 
J =im2bw(1,th); 
th = 255 * th; 
% 结 果 显示 
subplot(1,2,1); 
imshow(1) ;title( ' 原 始 图 像 ' ); 
subplot(1,2,2) ; 
str = [ 分割 结 果 : 国 值 Th = ' ,num2str(th) ] ; 
imshow(J) ; 
title(str) ; 
【 例 4-3】 边 缘 检 测算 子 的 MATLAB 实现 。 















































解 : MATLAB 中 提供 了 边缘 检测 函数 edge， 用 来 完成 灰 度 图 像 的 边缘 检测 ， 该 函数 支持 6 个 
不 同 的 边缘 检测 方法 ， 分 别 是 Sobel 算法 、Prewitt 算法 、Roberts 算法 、LoG 算法 、Zerocross 算法 








和 Canny 算法 。 edge 函数 的 语法 格式 如 下 。 
BW =edge(I，'"sobel ' ) 
BW =edge(I, 'sobel', thresh) 
BW = edge(I, 'sobel', thresh, direction) 
[BW, thresh] =edge(I，'"sobel' ,…) 


BW = edge(1, 'prewitt') 

BW =edge(I, 'prewitt', thresh) 

BW = edge(I, 'prewitt', thresh, direction) 
[BW, thresh | =edge(I, 'prewitt', .…) 


BW = edge(l, 'roberts') 
BW = edge(I, 'roberts', thresh) 
[BW, thresh | =edge(I, 'roberts', .…) 


BW =edge(I，'log' ) 

BW =edge(I，'log' ,thresh) 

BW =edge(I，'log' ,thresn，sigma) 
[BW, thresh] =edge(I，'log' ，…) 


BW =edge(I，'"zerocross '! ，threshn，h) 
[BW, thresh | = edge(I, 'zerocross' ，…) 


BW =edge(I, 'canny') 

BW =edge(I, 'canny', thresh) 

BW =edge(I, 'canny', thresh, sigma) 
[BW, thresh |] =edge(I, 'canny' ,*…) 
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说 明 如 下 。 

BW = edge(I，'sobel ' ) 用 于 用 sobel 算 子 检测 边缘 。 

BW = edge (1，' sobel' ,thresh) 用 于 指定 阀 值 thresh 的 Sobel 算 子 检测 边缘 ， 即 强度 小 于 
thresh 的 边缘 被 忽略 掉 ， 如 果 不 指 定 阔 值 或 赣 值 为 空 ， 则 edge 函数 自动 选择 阔 值 。 

BW =edge (1，'sobel' ,thresh，direction) 中 的 参数 direction 用 于 指定 检测 边缘 的 方向 。 当 该 
参数 值 为 'horizontal ' 时 ， 表 示 检 测 水 平方 向 边缘 ; 该 参数 值 为 'vertical' 时 ， 表 示 检 测 垂直 方 
向 边缘 ; 该 参数 值 为 'both' 时 ， 表 示 检 测 水 平和 垂直 方向 的 边缘 ， 该 值 为 默认 值 。 

[BW, thresh] =edge(I，'sobel' ，…) 用 于 返回 边缘 图 像 和 检测 用 的 阔 值 。 

BW =edge(I，'log' , thresh，sigma) 中 的 参数 sigma 用 于 指定 LoG 滤波 带 的 标准 差 。 

BW = edge(I，'zerocross' , thresh, h) 中 的 b 为 用 户 指定 的 滤波 器 ， 该 函数 通过 对 滤波 后 的 
图 像 用 过 零 检测 的 方法 来 检测 图 像 的 边缘 。 

BW = edge(I，'canny' ,thresh) 用 于 用 Canny 算 子 检测 图 像 的 边缘 ， 在 该 函数 中 ， 靖 值 参数 
thresh 是 一 个 有 两 个 元 素 的 向 量 ， 第 1 个 元 素 用 于 指定 较 小 的 闪 值 ， 第 2 个 元 素 用 于 指定 较 大 的 
冰 值 。 如 果 用 户 指定 该 参数 为 一 个 标量 ， 则 该 标量 值 作 为 较 大 的 阔 值 ， 较 小 的 阔 值 自动 选择 为 
0. 4 * thresh， 如 果 用 户 不 指定 thresh 或 thresh 为 空 ， edge 函数 自 动 选择 两 个 阔 值 ， 且 thresh 的 取 
值 与 图 像 梯 度 最 大 幅度 值 有 关 。 

【 例 4-4】 请 编写 MATLAB 程序 ， 对 一 幅 数 字 图 像 添加 高 斯 噪声 ， 然 后 分 别 对 原始 图 像 和 含 
噪声 的 图 像 用 Canny 算 子 进行 边缘 检测 测试 Canny 算 子 对 噪声 的 敏感 程度 。 

解 : MATLAB 代码 如 下 。 

clear all 

% 读 取 图 像 

I =imread( 'E:\matlab\images\blood. bmp ' ) ; 

和 对 岁 像 添加 高 斯 噪声 

IN =imnoise(1, 'gaussian' ) ; 

% 检测 边缘 

[BWI1,T1 ] = edge(I, "canny' ) ; 

[BW2,T2] = edge(IN,'canny'); 

% 结果 显 示 

subplot(2,2,1); 

imshow(1) ;title( ' 原 始 图 像 ' ) ; 

subplot(2,2,2); 

imshow( IN) ;title( ' 添 加 高 斯 噪声 图 像 ' ) ; 
subplot(2,2,3); 

t = [' 阅 值 [ Low High] =[',num2str(T1),']']; 
imshow( BW!1 ) ;title(tl ) ; 

subplot(2,2,4); 

也 = [ ' 国 值 [Low High] =[',num2str(T2),']']; 
imshow( BW2) ;title( 世 ) ; 

【 例 4-5】 请 编写 使 用 区 域 生长 法 进行 图 像 分 割 的 MATLAB 程序 。 

解 : 首先 编写 区 域 生 长 所 需 的 子孙 数 ， 新 建 一 个 m 文件 ， 其 代码 如 下 。 
%%%%M%%W%WWW%WW%MWW%WMWW%MMWMWWMWWMWWWWN 
% th_mean : 国 值 输入 
% seed :种 子 
%1 :输入 图 像 
% Yout :输出 图 像 
篇 入 篇 篇 篇 入 篇 篇 篇 篇 篇 篇 篇 芒 篇 入 乃 入 入 狐 篇 篇 入 力 入 力 入 入 入 力 力 力 力 力 乃 








为 





像 己 视频 处 理 



































































































































126| 第 4 章 





为 














function Yout = regiongrow(I,seed,th_mean) 
[M,N] = size(1); 
[LH] = size( seed); 
Yout = zeros( M,N); 
for i=1:L 
Yout(seed(i,1) ,seed(i,2)) = 1; 
end 
for i=1:L 
sum(i) = I(seed(i,!]) ,seed(i,2)); 
end 
seed_mean = mean( sum); 
ok = true 
s_star = 1; 
s_end = L; 
while ok 
ok = false; 
% 生 长 种 子 队列 中 ,选择 区 域 的 种 子 ，; 
for 1=s_star:s_end 
x = seed(i,1); 
y = seed(i,2); 








% 边界 点 以 内 
ff x >28&& (x+l)<M && y >28&&(y+1) <N 
% 判断 种 子 的 8 邻 域 
foru= -1:1 
forv= -1:1 
% 如 果 不 为 种 子 
% 则 判断 是 否 需 要 进行 合并 ,满足 条 件 则 合并 到 种 子 
i Yout(x+tu,y+v) == 0 &abs(I(x+u,y+v) -seed_mean) < = th_mean 
Yout(xtu,y+v) = 1; 
ok = true; 
seed = [seed;[|x+uy+t+v]|]; 
end 
end 
end 
end 


end 
s_star = s_end +1; 


[Lh|] = size(seed) ; 








s_end = 工 ; 
end 
对 新 建 的 m 文件 命名 并 保存 为 regiongrow. m 文件 ， 然 后 编写 区 域 生 长 的 主 程序 代码 如 下 。 
clear all 


I = imread( 'eight. tif') ; 
figure(1) ; 

imshow(J) ;title( ' 原 始 图 像 ') ; 
1 = double(1); 

% | M,N]| =size(1); 

% 设 置 生长 种 子 

[yl ,xl | = getpts; 

xl = round(xl) ; 

yl = round(yl ) ; 
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seed = [xl,y]]; 

% 设 定 域 值 

th_mean = 40; 

Yout = regiongrow(1, seed,th_mean); 
figure(2) ; 

imshow( Yout) ;title( ' 区 域 生长 ' ) ; 





4.7 小 结 


图 像 分 割 就 是 依据 图 像 的 灰 度 、 颜 色 、 纹 理 、 边 缘 等 特征 ， 把 图 像 分 成 各 自满 足 某 种 相似 性 


准则 或 具有 某 种 同 质 特征 的 连通 区 域 的 集合 的 过 程 。 

















图 像 分 割 的 依据 是 各 区 域 具有 不 同 的 特性 ， 这 些 特 性 可 以 是 灰 度 、 颜 色 、 纹 理 等 。 而 灰 度 图 
像 分 割 的 依据 是 基于 相 邻 像素 灰 度 值 的 不 连续 性 和 相似 性 。 也 就 是 说 ， 子 区 域内 部 的 像素 一 般 








有 具 有 灰 度 相似 性 ， 而 在 区 域 之 间 的 边界 上 一 般 具 有 灰 度 不 连 
看 ， 灰 度 图 像 分 割 方法 可 以 分 为 基于 区 域 边界 灰 度 不 连续 性 
的 方法 。 














续 性 。 所 以 ， 从 分 割 依据 的 角度 来 
的 方法 和 基于 区 域内 部 灰 度 相似 性 





基于 区 域 边界 灰 度 不 连续 性 的 方法 就 是 首先 检测 局 部 不 连续 性 ， 然 后 将 它们 连接 在 一 起 形成 边 





界 ， 这 些 边 界 将 图 像 分 成 不 同 的 区 域 。 如 ， 基 于 边缘 检测 的 图 














基于 区 域内 部 灰 度 相似 性 的 方法 就 是 将 具有 同一 灰 度 级 或 相同 组 织 结构 的 像素 聚集 在 一 起 ， 形 成 图 
像 的 不 同 区域 。 如 ， 立 值 化 分 割 、 区 域 生长 、 区 域 分 裂 与 合并 都 属于 此 类 方法 。 




















基于 边缘 检测 的 图 像 分 割 方法 的 基本 思路 是 先 确定 图 像 





像 分 割 、 基 于 边缘 跟踪 的 图 像 分 割 。 








中 的 边缘 像素 ,然后 就 可 把 它们 连 





接 在 一 起 构成 所 需 的 边界 。 边 缘 检 测 的 实质 是 采用 某 种 算法 来 提取 出 图 像 中 目标 与 背景 间 的 交 








界线 。 图 像 灰 度 的 变化 情况 可 以 用 图 像 灰 度 分 布 的 梯度 来 反 








上 映 ， 因 此 可 以 用 局 部 图 像 微分 技术 








来 获得 边缘 检测 算 子 。Roberts 算 子 、Prewitt 算 子 、Sobel 算 子 是 基于 一 阶 导 数 的 边缘 检测 算 子 ， 
图 像 的 边缘 检测 是 通过 2 x2 或 者 3 x3 模板 的 卷 积 和 对 图 像 中 的 每 个 像素 点 进行 卷 积 运算 ， 然 后 





选取 合适 的 闽 值 以 提取 边缘 。 拉 普 拉 斯 算 子 是 基于 二 阶 导 数 











的 边缘 检测 算 子 ， 该 算 子 对 噪声 敏 





感 。 对 拉 普 拉 斯 算 子 的 改进 方式 是 先 对 图 像 进行 平滑 处 理 ， 然 后 再 应 用 二 阶 导数 的 边缘 检测 算 
子 ， 其 代表 是 高 斯 型 的 拉 普 拉 斯 (LoG) 算 子 。Canny 算 子 是 在 满足 一 定 约束 条 件 下 推导 出 的 边 


缘 检测 最 优化 算 子 。 














阔 值 化 分 割 法 通过 阔 值 来 定义 图 像 中 不 同 像素 的 区 域 归 
市 出 的 结果 直接 给 出 了 图 像 的 不 同 区 域 划 分 。 而 在 实际 应 用 















































属 ， 在 阔 值 确定 后 ， 通 过 阔 值 化 分 
中 ， 图 像 的 灰 度 直方 图 受 噪 声 和 对 

















比 度 的 影响 较 大 ， 最 佳 浆 值 很 难 确 定 ， 因 此 ， 阔 值 化 分 割 法 的 关键 和 难点 就 是 如 何 选取 一 个 最 佳 














靖 值 ， 使 图 像 分 割 效 果 达 到 最 好 。 目 前 有 多 种 阔 值 选取 方法 ， 




















依据 阔 值 的 应 用 范围 可 将 阔 值 化 分 





制 方法 分 为 全 局 阐 值 化 分 割 法 、 局 部 闵 值 化 分 割 法 和 动态 国 值 化 分 割 法 3 类 。 每 一 类 方法 几乎 都 





有 其 独特 的 优点 和 实际 应 用 的 背景 。 实 际 应 用 中 ， 阔 值 化 分 割 法 需要 和 其 他 方法 相互 结合 使 用 ， 








才能 获得 最 佳 或 满意 的 分 割 结果 。 
基于 区 域 的 图 像 分 割 是 根据 图 像 的 灰 度 、 纹 理 、 颜 色 和 
的 空间 局 部 特征 ， 把 图 像 中 的 像素 划 归 到 各 个 物体 或 区 域 中 




















图 像 像 素 统计 特征 的 均匀 性 等 图 像 
， 进 而 将 图 像 分 割 成 若干 个 不 同 区 

















域 的 一 种 分 割 方法 。 区 域 生长 分 割 法 对 于 由 复杂 物体 定义 的 
请 区 域 生长 就 是 一 种 根据 事先 定义 的 准则 将 像素 或 者 子 区 域 











复杂 场景 分 割 具 有 很 好 的 作用 。 所 
聚合 成 更 大 区 域 的 过 程 。 基 本 思想 








是 以 一 组 种 子 〈 可 以 是 单个 像素 ， 也 可 以 是 某 个 小 区 域 ) 开始 ， 搜 索 其 邻 域 ， 把 图 像 分 割 成 特 





征 相似 的 知 干 小 区 域 ， 比 较 相 邻 小 区 域 与 种 子 特征 的 相似 性 ， 


128| 第 4 章 





奉 它们 足够 相似 ， 则 作为 同一 区 域 
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六 











像 分 割 


(©) 





合并 ， 形 成 新 的 种 子 。 以 此 方式 将 特征 相似 的 小 区 域 不 断 合 并 ， 
小 区 域 的 相似 性 判 据 可 以 是 灰 度 、 








征 不 同 的 各 区 域 。 种 子 和 相 邻 
要 素 特 性 的 量化 数据 。 
本 童 首先 介绍 了 图 像 分 割 








LAB 编程 实例 以 供 参 考 。 


4.8 习题 





. 什么 是 图 像 分 割 ? 目前 图 像 分 割 的 难点 主要 体现 在 哪些 方面 ? 











的 基本 概念 ; 然后 ， 











介绍 了 几 种 


















































直到 不 能 合并 为 止 ， 最 后 形成 特 
纹理 ， 也 可 以 是 色彩 等 多 种 图 像 


图 像 分 割 方法 ， 包 括 基于 阔 值 的 图 
像 分 割 方法 、 基 于 边缘 检测 的 图 像 分 割 方法 、 基 于 区 域 的 图 像 分 割 方法 和 基于 主动 轮廓 模型 
(以 Snake 模型 为 代表 ) 的 图 像 分 割 方法 ; 最 后 ， 针 对 某 些 常 月 








ea 








用 方法 的 基本 原理 ,给 出 了 MAT- 


. 图 像 分 割 的 依据 是 什么 ?常用 的 图 像 分 割 方法 主要 包括 哪 几 类 ? 分 别 有 哪 些 具 体 方法 ? 





1 
2 

3. 基于 
4. 什么 是 全 局 阔 值 化 分 嘎 
法 原理 分 别 是 什么 ? 











5. 相对 于 全 局 靖 值 化 分 割 ， 局 部 装 值 化 分 制 有 什么 优点 ? 其 基本 原型 


意 哪 几 点 ? 





6. 动态 阔 值 化 分 割 有 什么 特 


阔 值 的 图 像 分 割 方法 上 








的 基本 原理 是 什么 ? 什么 是 它 的 关键 和 难点 ? 








I 法 ?基于 灰 度 值 的 全 局 阐 值 化 分 割 有 哪儿 种 常见 算法 ? 它们 的 算 








7. 什么 是 图 像 边缘 和 边缘 检测 ? 
8. 请 写 出 Roberts 算 子 、Prewitt 算 子 和 Sobel 算 子 的 模板 。 它 们 各 有 什么 特点 ? 











9. 拉 普 拉 
请 写 出 LoG 算 子 的 常用 模板 。 





10. Canny 提出 的 边缘 检测 算 子 应 


是 什么 ? Canny 算 子 有 什么 优 缺 点 ? 


11. 什么 是 光栅 扫描 跟踪 ? 光栅 扫描 跟踪 方法 的 基本 






































需要 遵循 哪 三 个 准则 ? 使 用 光栅 扫描 跟踪 方法 实 














16. 根据 轮廓 曲线 的 不 同 表示 方式 ， 主 动 轮廓 模型 


能 量 ? 


点 ? 其 关键 是 什么 ? 
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4 可 以 分 为 哪 几 类 ?7 Snake 模 





斯 算 子 有 什么 局 限 性 和 作用 ? 高 斯 拉 普 拉 斯 (LoG) 算 子 的 模板 要 满足 什么 特征 


思想 是 什么 ? 使 用 光栅 扫描 跟踪 方法 ， 
现 边 界 跟踪 的 具体 步骤 是 什么 ? 
12. 什么 是 轮廓 跟踪 法 ? 采用 轮廓 跟踪 的 方法 ， 进 行 图 像 分 割 的 具体 步骤 是 什么 ? 
13. 什么 是 基于 区 域 的 图 像 分 割 ? 传统 的 基于 区 域 的 分 割 方法 有 几 种 ? 
14. 什么 是 区 域 生长 ? 其 基本 方法 是 什么 ? 决定 区 域 生长 好 坏 的 因素 有 哪些 ? 
15. 什么 是 区 域 的 分 裂 与 合并 ? 简 述 其 基本 步骤 。 


是 什么 ? 使 用 时 需 注 
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Y 满 足 的 3 个 判断 准则 是 什么 ? Canny 算 子 的 主要 实现 步 又 














型 包括 哪些 
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第 5 剖 数字 图 像 与 视频 压 纳 纳 码 原理 


本 章 学 习 目 标 : 

e 计 悉数 字 图 像 与 视频 编码 的 基本 原理 及 常用 方法 。 

e 重点 掌握 哈 夫 曼 (Huffman) 编码 、 算 术 编 码 、 预 测 编码 和 基于 DCT 的 变换 编码 的 基本 
原理 。 

。 掌握 运动 估计 和 运动 补偿 预测 编码 的 基本 原理 。 


5.1 数字 图 像 与 视频 压缩 编码 概述 


5.1.1 数字 图 像 与 视频 压缩 的 必要 性 和 可 能 性 


视频 信号 数字 化 之 后 所 面临 的 一 个 问题 是 巨大 的 数据 量 给 存储 和 传输 带 来 的 压力 。 例 如 ， 
路 电视 信号 ， 按 ITU-R BT. 601 建议 ， 数 字 化 后 的 输入 图 像 格式 为 720 x576， 帧 频 为 25 帧 /s， 
采样 格式 为 4 : 2 : 2， 量 化 精度 为 8bit， 则 数码 率 为 (720 x 576 +360 x576 +360 x576) x25 帧 /s 
x8bit =165. 888Mbit/s。 如 果 视 频 信号 数字 化 后 直接 存放 在 650MB 的 光盘 中 ， 在 不 考虑 音频 信和 号 
的 情况 下 ， 每 张 光 盘 只 能 存储 31s 的 视频 信号 。 单 纯 用 扩大 存储 容量 、 增 加 通信 信道 的 带宽 的 办 
法 是 不 现实 。 而 数据 压缩 技术 是 个 行 之 有 效 的 方法 ， 以 压缩 编码 的 形式 存储 、 传 输 ， 既 节约 了 存 
储 空间 ， 又 提高 了 通信 信道 的 传输 效率 ， 同 时 也 可 使 计算 机 实时 处 理 视频 信息 ， 以 保证 播放 出 高 
质量 的 视频 节目 。 

数据 压缩 的 理论 基础 是 信息 论 。 从 信息 论 的 角度 来 看 ， 压 缩 就 是 去 掉 数 据 中 的 宛 余 ， 即 保留 
不 确定 的 信息 ， 去 掉 确定 的 信息 (可 推 知 的 ) ， 也 就 是 用 一 种 更 接近 信息 本 质 的 描述 来 代替 原 有 
宛 余 的 描述 。 数 字 图 像 和 视频 数据 中 存在 着 大 量 的 数据 元 余 和 主观 视觉 元 余 ， 因 此 图 像 和 视频 
数据 压缩 不 仅 是 必要 的 ， 而 且 也 是 可 能 的 。 

在 一 般 的 图 像 和 视频 数据 中 ， 主 要 存在 以 下 几 种 形式 的 元 余 。 

1. 空间 宛 余 

空间 宛 余 也 称 为 空域 元 余 ， 是 一 种 与 像素 间 相 关 性 直接 联系 的 数据 元 余 。 以 静态 网 像 为 例 ， 
数字 图 像 的 亮度 信号 和 色 度 信号 在 空间 域 (和 ,了 坐标 系 ) 虽然 属于 一 个 随机 场 分 布 ， 但 是 它们 
可 以 看 作 一 个 平稳 的 马尔 可 夫 场 。 通 俗 地 理解 ， 图 像 像素 点 在 空间 域 中 的 亮度 值 和 色 度 信号 值 ， 
除了 边界 轮廓 外 ， 都 是 缓慢 变化 的 。 例 如 ， 一 幅 人 的 头 肩 图 像 ， 背 景 、 人 脸 、 头 发 等 处 的 亮度 、 
颜色 都 是 平缓 变化 的 。 相 邻 像素 的 亮度 和 色 度 信号 值 比较 接近 ， 具 有 强 的 相关 性 ， 如 果 直 接 用 采 
样 数据 来 表示 亮度 和 色 度 信号 ， 则 数据 中 存在 较 多 的 空间 宛 余 。 如 果 先 去 除 宛 余数 据 再 进行 编 
码 ， 则 使 表示 每 个 像素 的 平均 比特 数 下 降 ， 这 就 是 通常 所 说 的 图 像 的 帧 内 编码 ， 即 以 减少 空间 宛 
余 进 行 数据 压缩 。 

2. 时 间 宛 余 

时 间 宛 余 也 称 为 时 域 匈 余 ， 它 是 针对 视频 序列 图 像 而 言 的 。 视 频 序列 每 秒 有 25 ~ 30 帧 图 像 ， 
相 邻 帧 之 间 的 时 间 间 隔 很 小 (例如 ， 帧 频 为 25Hz 的 电视 信号 ， 其 帧 间 时 间 间 隔 只 有 0. 04s) ; 同 
时 实际 生活 中 的 运动 物体 具有 运动 一 致 性 ， 使 得 视频 序列 图 像 之 间 有 很 强 的 相关 性 。 
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例如 ， 图 5-1a 所 示 为 一 组 视频 序列 的 
第 2 帧 图 像 ， 图 5-1b 所 示 为 第 3 帧 图 像 。 
人 眼 很 难 发 现 这 两 帧 图 像 的 差别 ， 如 果 连 





























, 节 
续 播放 这 一 视频 序列 ， 人 了 眼 就 更 难看 出 两 、 国 时 和 
帧 图 像 之 间 的 差别 。 两 帧 图 像 越 接近 ， 说 ll 
明 图 像 携带 的 信息 越 少 。 换 句 话 说 ， 第 3” 轩 型 ~ | 
帧 图 像 相 对 第 2 帧 图 像 而 言 ， 存 在 大 量 宛 a) 第 2 帧 b) 第 3 帧 
余 。 对 于 视频 压缩 而 言 ， 通 常 采 用 运动 佑 图 5-1 视频 序列 图 像 的 时 间 宛 余 


计 和 运动 补偿 预测 技术 来 消除 时 间 宛 余 。 

3. 统计 元 余 

统计 宛 余 也 称 编码 表示 宛 余 或 符号 郊 余 。 由 信息 论 的 有 关 原 理 可 知 ， 为 了 表示 图 像 数据 的 
一 个 像素 点 ， 只 要 按 其 信息 彤 的 大 小 分 配 相 应 的 比特 数 即 可 。 然 而 ， 对 于 实际 图 像 数据 的 每 个 像 
素 ， 很 难得 到 它 的 信息 粹 ， 在 数字 化 一 幅 图 像 时 ， 对 每 个 像素 是 用 相同 的 比特 数 表示 ， 这 样 必然 
存在 元 余 。 换 言 之 ， 若 用 相同 码 长 表示 不 同 出 现 概率 的 符号 ， 则 会 造成 比特 数 的 浪费 。 如 果 采 用 
可 变 长 编码 技术 ， 对 出 现 概 率 大 的 符号 用 短 码 字 表 示 ， 对 出 现 概 率 小 的 符号 用 长 码 字 表示 ， 则 可 
去 除 符号 匈 余 ， 从 而 节约 码 字 ， 这 就 是 粹 编码 的 思想 。 

4. 结构 元 余 

在 有 些 图 像 的 部 分 区 域内 有 着 很 相似 的 纹理 结构 ， 或 是 图 像 的 各 个 部 分 之 间 存 在 着 某 种 关系 ， 
例如 自 相似 性 等 ， 这 些 都 是 结构 宛 余 的 表现 。 分 形 图 像 编 码 的 基本 思想 就 是 利用 了 结构 元 余 。 

5. 知识 元 余 

在 某 些 特 定 的 应 用 场合 ， 编 码 对 象 中 包含 的 信息 与 某 些 先 验 的 基本 知识 有 关 。 例 如 ， 在 电视 
电话 中 ， 编 码 对 象 为 人 的 头 肩 图 像 。 其 中 头 、 眼 、 鼻 和 嘴 的 相互 位 置 等 信息 就 是 一 些 常识 。 这 
时 ， 可 以 利用 这 些 先 验 知识 为 编码 对 象 建立 模型 。 通 过 提取 模型 参数 ， 对 参数 进行 编码 而 不 是 对 
图 像 像 素 值 直接 进行 编码 ， 可 以 达到 非常 高 的 压缩 比 。 这 是 模型 基 编 码 (或 称 知识 基 编 码 、 语 
义 基 编码 ) 的 基本 思想 。 

6. 人 眼 的 视觉 元 余 

视觉 元 余 度 是 相对 于 人 有 眼 的 视觉 特性 而 言 的 。 人 类 视觉 系统 (Human Visual System，HVS ) 
是 世界 上 最 好 的 图 像 处 理 系 统 ， 但 它 并 不 是 对 于 图 像 中 的 任何 变化 都 能 感知 。 人 有 眼 对 亮度 信号 
比 对 色 度 信号 敏感 ， 对 低频 信号 比 对 高 频 信号 敏感 ( 即 对 边缘 或 突变 附近 的 细节 不 敏感 )， 对 更 
止 图 像 比 对 运动 图 像 敏 感 ， 以 及 对 图 像 水 平 线条 和 垂直 线条 比 对 斜 线 敏感 等 。 因 此 ， 包含 在 色 度 
言 号 、 图 像 高 频 信 号 和 运动 图 像 中 的 一 些 数据 并 不 能 对 增加 图 像 相 对 于 人 眼 的 清晰 度 做 出 贡献 ， 
而 被 认为 是 多 余 的 ， 这 就 是 视觉 见 余 。 所 以 ,在 许多 应 用 场合 ， 并 不 要 求 经 压缩 及 解码 后 的 重建 
图 像 和 原始 图 像 完全 相同 ， 而 允许 有 少量 的 失真 ， 只 要 这 些 失真 并 不 被 人 眼 所 察觉 。 

压缩 视觉 元 余 的 核心 思想 是 去 掉 那 些 相 对 人 有 眼 而 言 是 看 不 到 的 或 可 有 可 无 的 网 像 数 据 。 对 
视觉 元 余 的 压缩 通常 反映 在 各 种 具体 的 压缩 编码 过 程 中 。 如 对 于 离散 余弦 变换 ( Discrete Cosine 
Transform，DCT) 系数 的 直流 与 低频 部 分 采取 细 量 化 ， 而 对 高 频 部 分 采取 粗 量 化 。 在 帧 间 预 测 编 
码 中 ， 高 压缩 比 的 预测 帧 及 双向 预测 帧 的 采用 ， 也 是 利用 了 人 眼 对 运动 图 像 细 节 不 敏感 的 特性 。 

上 述 各 种 形式 的 元 余 ， 是 压缩 图 像 与 视频 数据 的 出 发 点 。 图 像 与 视频 压缩 编码 方法 就 是 要 
尽 可 能 地 去 除 这 些 元 余 ， 以 减少 用 于 表示 图 像 与 视频 信息 所 需 的 数据 量 。 

综 上 所 述 ， 图 像 或 视频 压缩 编码 的 目的 ， 是 在 保证 重建 图 像 质量 一 定 的 前 提 下 ， 以 尽量 少 的 
比特 数 来 表征 图 像 或 视频 信息 。 
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5.1.2 数字 图 像 与 视频 压缩 编码 的 主要 方法 及 其 分 类 


数字 图 像 与 视频 压缩 编码 已 经 历 了 60 多 年 的 历史 ,不 仪 在 理论 上 取得 了 重大 进步 ， 而 且 在 
实际 应 用 中 也 获得 了 巨大 成 功 。 

1948 年 香农 (C. E. Shannon) 在 其 经 典 论文 《通信 的 数学 理论 》 中 首次 提 到 信息 率 -失真 函 
数 概念 ，1959 年 又 进一步 确立 了 率 失 真理 论 ， 从 而 奠定 了 信 源 编码 的 理论 基础 。 

自 1948 年 提出 电视 信号 数字 化 后 ， 人 们 开始 了 对 图 像 压缩 编码 的 研究 工作 。1952 年 哈 夫 曼 
(D. A. Huffman) 给 出 最 优 变 长 码 的 构造 方法 。 同 年 贝尔 实验 室 的 奥利弗 〈B. M. Oliver) 等 人 开 
始 研究 线性 预测 编码 理论 ; 1958 年 格雷 哈 姆 (Graham) 用 计算 机 模拟 法 研究 图 像 的 DPCM (Dif- 
ferential Pulse Code Modulation ， 差 分 脉冲 编码 调制 ) 方法 ; 1966 年 奥尼尔 (村 B.0” Neal) 通过 
理论 分 析 和 计算 模拟 比较 了 PCM (Pulse Code Modulation ， 脉 冲 编码 调制 ) 和 DPCM 对 电视 信和 号 
进行 编码 传输 的 性 能 。 限 于 当时 的 客观 条 件 ， 仅 对 帧 内 预测 法 和 亚 采 样 内 插 复原 法 进行 研究 ， 对 
视觉 特性 也 做 了 一 些 极为 有 限 的 工作 。20 世纪 70 年 代 开 始 进行 了 帧 间 预 测 编 码 的 研究 。20 世纪 
80 年 代 初 开始 对 做 运动 补偿 预测 所 用 的 运动 估计 进行 研究 。 

20 世纪 60 年 代 ， 科 学 家 们 开始 探索 比 预 测 编码 效率 更 高 的 编码 方法 。 人 们 首先 讨论 了 包括 
K-L (Karhunen-Loeve) 变换 、 离 散 傅 里 时 变换 ( Discrete Fourier Transform，DIHIT) 等 正 交 变换 。 
1968 年 安德鲁 斯 (H. C. Andrews) 等 人 采用 二 维 离散 傅 里 叶 变 换 (2D-DFT) 提出 了 变换 编码 。 
此 后 相继 出 现 了 沃 尔 什 -哈达 玛 (Walsh- Hadamard) 变换 、 斜 ( Slant) 变换 、K-L 变换 、 离 散 余 
弦 变 换 (DCT) 等 。 

1976 年 美国 贝尔 系统 的 克 劳 切 (R. E. Crochjiere) 等 人 提出 了 语音 的 子 带 编码 ，1985 年 奥 尼 
尔 (S.D.0”Neil) 将 子 带 编码 引入 到 图 像 编 码 。 

早 在 1948 年 ， 香 农 就 提出 将 信 源 符号 依 其 出 现 的 概率 降序 排序 ， 用 符号 序列 累计 概率 的 二 
进 制 值 作为 对 信 源 的 编码 ， 并 从 理论 上 论证 了 它 的 优越 性 。1960 年 ，P. Elias 发 现 无 须 对 信 源 符 
号 进行 排序 而 只 要 编 、 解 码 端 使 用 相同 的 符号 顺序 即 可 ， 并 提出 了 算术 编码 的 概念 。Elias 没有 
公布 他 的 发 现 ， 因 为 他 认为 算术 编码 在 数学 上 虽然 成 立 , 但 不 可 能 在 实际 中 实现 。1976 年 ， 
R. Pasco 和 J Rissanen 分 别 用 定 长 的 寄存 器 实现 了 有 限 精 度 的 算术 编码 。1979 年 J. Rissanen 和 
G. G. Langdon 一 起 将 算术 编码 系统 化 ， 并 于 1981 年 实现 了 二 进 制 编码 。1987 年 Witten 等 人 发 表 
了 一 个 实用 的 算术 编码 程序 ， 即 CACM87 (后 被 ITU-T 的 H.263 视频 压缩 标准 采用 ) 。 同 期 ， 
IBM 公司 发 表 了 著名 的 Q- 编 码 器 (后 被 JPEG 建议 的 扩展 系统 和 JBIG 二 值 图 像 压缩 标准 采用 )。 
从 此 ， 算术 编码 迅速 得 到 了 广泛 的 注意 。 

1983 年 瑞典 的 Forchheimer 和 Fahlander 提出 了 基于 模型 编码 ( Model- Based Coding) 的 思想 。 

1986 年 ，Meyer 在 理论 上 证 明了 一 维 小 波 函 数 的 存在 ,创造 性 地 构造 出 具有 一 定 衰减 特性 的 
小 波 函 数 。1987 年 Mallat 提出 了 多 尺度 分 析 的 思想 及 多 分 辨 率 分 析 的 概念 ， 成 功 地 统一 了 在 此 
之 前 各 种 具体 小 波 的 构造 方法 ， 提 出 了 相应 的 快速 小 波 算法 一 一 Mallat 算法 ， 并 把 它 有 效 地 应 用 
于 图 像 分 解 和 重 构 ; 1989 年 ， 小 波 变 换 开 始 用 于 多 分 辨 率 图 像 描 述 。 

20 世纪 90 年 代 中 后 期 ，Internet 迅猛 发 展 ， 移 动 通信 也 迅速 在 全 球 普 及 ， 因 此 人 们 开始 有 了 
在 网 络 上 传输 视频 和 图 像 的 愿望 。 在 网 络 上 传输 视频 和 图 像 等 多 媒体 信息 除了 要 解决 误 码 问题 
之 外 ， 最 大 的 挑战 在 于 用 户 可 以 获得 的 带宽 在 不 停 地 变化 。 为 了 适应 网 络 带宽 的 变化 ， 提 出 了 分 
层 (Layered)、 可 分 级 (Scalable) 编码 的 思想 。 分 层 可 分 级 编码 (Layered Scalable Coding) 是 目 
前 流 媒 体 技 术 中 的 研究 热点 。 

迄今 为 止 ， 人 们 研究 了 各 种 各 样 的 数据 压缩 方法 ， 对 它们 进行 分 类 、 归 纳 有 助 于 我 们 的 理 
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数字 
解 。 从 不 同 的 角度 出 发 有 不 同 的 分 类 方法 。 

从 信息 论 的 角度 出 发 ,根据 解 码 后 还 原 的 区 
数据 是 否 与 原始 数据 完全 相同 ， 可 将 数字 图 像 | 主人 
与 视频 数据 压缩 编码 方法 分 为 两 大 类 : 无 失真 游程 编码 (RLE) 
编码 和 限 失 真 编 码 ， 如 图 5-2 所 示 。 数据 压缩 编码 


(1) 无 失真 编码 
无 失真 编码 又 称 无 损 编码 、 统 计 编码 、 信 

















矢量 量化 


预测 编码 
限 失 真 编码 | 党 








息 保持 编码 、 炳 编码 。 无 失真 编码 是 基于 信号 bien 
统计 特性 的 一 种 编码 方法 ， 它 利用 信 源 概率 分 图 5-2 数字 图 像 与 视频 数据 压缩 编码 方法 的 分 类 
布 的 不 均匀 性 ， 通 过 变 字 长 编码 来 减少 信 源 数据 宛 余 ， 解 码 后 还 原 的 数据 与 压缩 编码 前 的 原始 
数据 完全 相同 而 不 引入 任何 失真 。 但 无 失真 编码 的 压缩 比较 低 ， 可 达到 的 最 高 压缩 比 受 到 信 源 
焙 的 理论 限制 ， 一 般 为 2 : 1 到 5 : 1。 最 党 用 的 无 失真 编码 方法 有 哈 夫 曼 (Huffman) 编码 、 算 
术 编 码 和 游程 编码 (Run-Length Encoding，RIE) 等 。 此 类 方法 广泛 用 于 文本 数据 、 程 序 和 特殊 
应 用 场合 的 图 像 数 据 ( 如 指纹 图 像 、 医 学 图 像 等 ) 压缩 。 

(2) 限 失真 编码 

限 失真 编码 也 称 有 损 编码 、 非 信息 保持 编码 、 炉 压缩 编码 。 也 就 是 说 ,解码 后 还 原 的 数据 与 
压缩 编码 前 的 原始 数据 是 有 差别 的 ， 编 码 会 造成 一 定 程度 的 失真 。 

限 失 真 编码 方法 除了 利用 统计 宛 余 进行 压缩 编码 外 ， 还 利用 了 视频 数据 的 视觉 元 余 特 性 ， 
即 利 用 人 类 视觉 系统 (HVS) 对 视频 信息 中 某 些 频率 成 分 不 敏感 的 特性 ， 人 允许 压缩 过 程 中 损失 
一 部 分 信息 ， 虽 然 在 解码 时 不 能 完全 恢复 原始 数据 ， 但 是 如 果 把 失真 控制 在 视觉 阔 值 以 下 或 控 
制 在 可 容忍 的 限度 内 ， 则 不 影响 人 们 对 图 像 的 理解 ， 却 换 来 了 高 压缩 比 。 在 限 失 真 编码 中 ， 人 允许 
的 失真 越 大 ， 则 可 达到 的 压缩 比 越 高 。 

篆 见 的 限 失真 编码 方法 有 : 预测 编码 、 变 换 编码 、 矢 量 量化 、 基 于 模型 的 编码 等 。 

在 实际 应 用 的 编码 中 ， 往 往 采 用 混合 编码 方法 ， 即 综合 利用 上 述 各 种 编码 技术 ， 以 求 达到 最 
佳 压缩 编码 效果 。 人 例如， 在 MPEG (Moving Picture Experts Group ， 运 动 图 像 专家 组 ) 标准 中 的 视 
频 压 缩 算法 即 综合 利用 了 变换 编码 、 运 动 补偿 、 帧 间 预 测 以 及 信 编 码 等 多 项 技术 。 


5.2 炳 编码 














































































































5.2.1 图 像 的 信 源 炉 


炉 编 码 是 建立 在 随机 过 程 的 统计 特性 基础 上 的 。 因 为 人 们 日 常 所 见 到 的 图 像 和 视频 都 可 
以 看 作 是 一 个 随机 信号 序列 ， 它 们 在 时 间 和 空间 上 均 具 有 对 应 的 统计 特性 。 图 像 的 统计 特性 
是 研究 图 像 灰 度 或 彩色 信号 值 在 统计 意义 上 的 分 布 上 上。 大千 世 界 的 实际 图 像 种 类 繁多 ， 内 容 
各 不 相同 ， 其 随机 分 布 各 不 相同 ， 所 以 其 统计 特性 相当 复杂 。 以 一 幅 大 小 为 256 x 256 像素 ， 
每 像素 用 8bit 表示 的 静止 黑白 图 像 为 例 ， 它 有 (2°) =2 x*% 二 10 种 不 同 的 图 案 。 
对 于 这 样 一 个 天 文 数字 的 图 像 统 计 特 性 研究 ， 实 际 上 是 不 可 能 的 ， 也 是 没有 意义 的 ， 这 是 因 
为 其 中 绝 大 部 分 图 像 是 毫 无 任何 意义 的 纯 噪 声 图 像 。 因 此 ， 对 图 像 做 统计 分 析 研 究 时 ， 为 了 
不 使 分 析 过 程 过 于 复杂 ， 同 时 又 具有 代表 性 和 实用 价值 ， 通 常 把 分 析 对 象 集中 在 实际 应 用 中 
某 一 类 图 像 的 一 些 典 型 代表 图 像 (或 序列 ) 上 。 例 如 ， 对 于 会 议 电 视 、 可 视 电 话 、 广 播 电视 
以 及 HDTV 等 ， 国 际 上 的 一 些 组 织 ， 如 ITU-T、SMPTE (电影 电视 工程 师 协 会 ) 、EBU (欧洲 
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广播 联盟 ) 、MPEG 等 都 有 相应 的 标准 测试 图 像 及 序列 。 用 标准 测试 图 像 的 采样 文件 ， 进 行 图 
像 各 种 统计 特性 的 研究 。 
由 于 焙 编 码 也 称 信息 保持 编码 ， 这 里 涉及 信息 的 度量 问题 。 为 此 首先 回顾 一 下 有 关 信 息 论 
的 基本 概念 ， 然 后 再 将 它们 运用 到 图 像 的 压缩 编码 之 中 。 
设 信 源 蕊 可 发 出 的 消息 符号 集合 为 4= ja 1i=1,2,…,m| ， 并 设 庆 发 出 符号 a 的 概率 为 
p(a,)， 则 定义 符号 a 出 现 的 自信 息 量 为 
I(a;) = -log pl(a,) (5-1) 
通常 ， 上 式 中 的 对 数 取 2 为 底 ， 这 时 定义 的 信息 量 单位 为 比特 (hit) 。 
如 果 各 符号 a, 的 出 现 是 相互 独立 的 ， 则 信 源 X 发 出 一 符号 序列 的 概率 等 于 各 符号 的 出 现 概 
率 之 乘积 ， 因 而 该 序列 出 现 的 信息 量 等 于 相继 出 现 的 各 符号 的 自信 息 量 之 和 。 这 类 信 源 称 为 
“无 记忆 ” 信 源 。 
对 信 源 X 的 各 符号 的 自信 息 量 取 统计 平均 ， 可 得 每 个 符号 的 平均 信息 量 
H(X) =- 之 Mo) logp(o) (5-2) 
称 H(X) 为 信 源 的 (Entropy) ， 单 位 为 bity 符 号， 通常 也 称 为 了 的 一 阶 炉 ， 它 的 含义 是 信 源 
开发 出 任意 一 个 符号 的 平均 信息 量 。 
在 实际 情况 下 ， 信 源 相 继 发 出 的 各 个 符号 之 间 并 不 是 相互 独立 的 ， 而 是 具有 统计 上 的 相关 
性 。 这 种 类 型 的 信 源 称 为 “有 记忆 ” 信 源 。 一 个 有 记忆 信 源 发 出 一 个 符号 的 概率 与 它 以 前 已 相 
继 发 出 的 符号 密切 相关 。 有 记忆 信 源 的 分 析 是 非常 复杂 的 ， 通 常 只 考虑 其 中 的 一 种 特殊 形式 ， 即 
所 谓 的 NN 阶 马尔 可 夫 过 程 。 对 于 这 种 情况 ， 信 源 发 出 一 个 符号 的 概率 只 与 前 面相 继 发 出 的 V 个 
符号 有 关 ， 而 与 再 前 面 的 第 V+1，N+2，… 等 符号 独立 无 关 。 在 计算 一 个 有 记忆 信 源 的 焙 值 时 ， 
可 以 把 这 些 相关 的 个 符号 组 成 的 序列 当 作 一 个 新 的 符号 B,(N)， 信 源 发 出 这 个 新 符号 的 概率 
用 p (B,，(N)) 表示 ， 它 不 再 是 符号 序列 中 各 符号 的 出 现 概 率 之 乘积 。 对 于 这 种 信 源 ， 每 个 符 
号 序列 的 平均 信息 量 ， 即 序列 入 为 


A(X) =- 六 PCB(CN) logp(BCN)) (5-3) 


其 单位 为 bi 符号 序列 。 上 式 中 的 m 是 符号 序列 的 总 数 。 
而 序列 中 的 每 个 符号 的 平均 烂 值 为 
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HX) = -HPDp(BCN)) logsp( BCN)) (5-4) 





其 单位 为 bi/ 符号， 通常 也 称 为 工 的 V 阶 焙 。 

把 上 述 概 念 引入 到 图 像 信 源 来 计算 炉 值 时 ， 需 要 注意 的 地 方 是 “符号 ”的 定义 。 用 现实 世 
界 中 可 能 构成 的 整 幅 图像 作 为 信 源 外 可 能 发 出 的 一 个 符号 时 ,p(B,(N)) 就 表示 m 幅 图 像 中 的 
某 一 图 像 出 现 的 概率 。H(X) 的 单位 是 pi 图 像 。 当 以 图 像 为 基本 符号 单位 时 ， 意 味 着 每 幅 图 像 
的 内 容 “ 本 身 ” 对 信息 的 接收 者 而 言 是 确定 的 。 所 需 消除 的 不 确定 性 只 是 当前 显示 的 图 像 是 图 
像 集 中 的 哪 一 幅 。 在 一 些 特 殊 的 场合 ， 这 种 以 图 像 为 基本 符号 单位 是 有 用 的 。 比 如 ， 从 一 副 扑 死 
牌 中 抽出 一 张 纸牌 ， 每 一 张 牌 的 图 案 是 确定 的 ， 这 时 ， 要 消除 的 不 确定 性 只 是 牌 的 面值 。 

对 于 实际 通信 中 用 作 观 察 的 图 像 而 言 ， 要 考虑 的 是 大 量 的 图 像 构 成 的 集合 ,信息 的 接收 者 
所 要 消除 的 不 确定 性 在 于 每 幅 图 像 内 容 本 身 ， 如 果 以 图 像 为 基本 符号 单位 ， 就 不 再 具有 实际 意 
义 。 比 较 直 观 、 简 便 的 方法 是 把 每 个 像素 的 样本 值 定义 为 符号 。 这 时 ， 式 (5-2) 中 的 p(a,) 为 各 
样本 值 出 现 的 概率 ，H(X) 的 单位 为 bi/ 像素， 所 得 的 炉 值 为 “一 阶 炉 ”"。 如 果 考 虑 实际 图 像 中 
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相 邻 像素 之 间 存 在 相关 性 ， 像 素 之 间 不 是 相互 独立 的 特点 ， 用 相 邻 两 个 像素 (也 可 以 三 个 或 三 
个 以 上 ， 直 至 入 个 像素 ) 组 成 一 个 子 图 像 块 ， 以 子 图 像 块 作为 编码 的 基本 单元 ， 其 对 应 的 箭 为 
二 阶 焙 〈 三 阶 炉 、V 阶 炉 ) 或 称 为 高 阶 箭 。 理 论 上 可 以 证 明 ， 高 阶 米 于 等 于 低 阶 精 ， 即 
H,(X)=H(X)=H,(X)=:…=H,(X) (5-5) 

式 中 ， 于 (了) 为 等 概率 无 记忆 信 源 单个 符号 的 糯 ; (XX) 为 一 般 无 记忆 (不 等 概率 ) 信 源 单个 
符号 的 炉 ; 五 (X) 为 两 个 符号 组 成 的 序列 平均 符号 炉 ; 依次 类 推 ，H,(X) 称 为 极限 和 。 

图 像 信 源 信 是 图 像 压 缩编 码 的 一 个 理论 极限 ， 它 表示 无 失真 编码 所 需 的 比特 率 的 下 限 。 比 
特 率 定义 为 编码 表示 一 个 像素 所 需要 的 平均 比特 数 。 业 编 码 或 者 叫 箭 保持 编码 、 信 息 保持 编码 、 
无 失真 压缩 编码 ， 要 求 编码 输出 码 字 的 平均 码 长 ， 只 能 大 于 等 于 信 源 录 ， 和 否则 在 信 源 压缩 编码 过 
程 中 就 要 丢失 信息 。 信 源 压 缩编 码 的 目的 之 一 就 是 在 一 定 信 源 概率 分 布 条 件 下 ， 尽 可 能 使 编码 
码 字 的 平均 码 长 接近 信 源 的 焙 ， 减少 元 余 。 

根据 信息 论 基 础 知识 可 知 ， 信 源 宛 余 来 自信 源 本 身 的 相关 性 和 信 源 概率 分 布 的 不 均匀 性 。 
炉 编 码 的 基本 原理 就 是 去 除 图 像 信 源 在 空间 和 时 间 上 的 相关 性 ， 利 用 图 像 信 源 像素 值 的 概率 分 
布 不 均匀 性 ,使 编码 码 字 的 平均 码 长 接近 信 源 的 炉 而 不 产生 失真 。 由 于 这 种 编码 完全 基于 图 像 
的 统计 特性 ， 因 此 ， 有 时 也 称 其 为 统计 编码 。 


5.2.2 游程 编码 


游程 编码 (Run Length Encoding, RLE), 也 称 行程 编码 或 游程 (行程 ) 长 度 编码 ， 是 一 种 
非常 简单 的 数据 压缩 编码 形式 。 这 种 编码 方法 建立 在 数据 相关 性 的 基础 上 ， 甚 基本 思想 是 将 具 
有 相同 数值 〈( 例 如， 像素 的 灰 度 值 ) 的 、 连 续 出 现 的 信 源 符号 构成 的 符号 序列 用 其 数值 及 串 的 
长 度 表 示 。 以 图 像 编 码 为 例 ， 灰 度 值 相同 的 相 邻 像素 的 延续 长 度 (像素 数目 ) 称 为 延续 的 游程 ， 
又 称 游程 长 度 ， 简 称 游 程 。 如 果 沿 图 像 的 水 平方 向 有 一 串 世 个 像素 具有 相同 的 灰 度 值 6， 则 对 其 
进行 游程 编码 后 ， 只 需 传送 数据 组 (G,，L) 就 可 代替 传送 工 个 像素 的 灰 度 值 。 对 同一 灰 度 、 不 
同 长 度 游程 出 现 的 概率 进行 统计 ， 则 可 以 将 游程 作为 编码 对 象 进 行 统 计 编 码 。 

游程 编码 往往 与 其 他 编码 方法 结合 使 用 。 例 如 ， 在 MPEG-1/2 中 ， 对 图 像 块 做 完 DCT 和 量化 
后 ， 经 Zig-Zag 扫描 将 “0” 系 数组 织 成 “0” 游 程 ， 做 游程 编码 ， 再 与 非 “0” 系 数 结合 组 成 二 
维 事件 (RUN，LEVEL) 进行 哈 夫 曼 编 码 ， 其 中 的 RUN 代表 “0” 游程 的 长 度 ，LEVEL 代表 处 
在 该 “0” 游 程 后 面 的 非 “0” 系 数 的 数值 。 

显然 , 平均 游程 长 度 越 长 ， 游 程 编码 的 效率 越 高 。 由 于 必须 保证 在 一 个 游程 内 所 有 的 像素 的 
灰 度 值 相同 ， 所 以 游程 编码 不 太 适 合 多 值 的 灰 度 图 像 ， 因 为 灰 度 级 越 多 ， 越 难以 产生 长 游程 。 一 
般 灰 度 级 越 多 ， 平 均 游程 越 短 ， 编 码 效率 越 低 ， 因 此 游程 编码 多 用 于 二 值 图 像 或 经 过 处 理 的 变换 
系数 编码 。 


s.2.3 哈 夫 曼 编码 


哈 夫 曼 于 1952 年 提出 一 种 编码 方法 ， 完 全 依据 符号 出 现 概率 来 构造 异 字 头 (前 级 ) 的 平均 长 
度 最 短 的 码 字 ， 有 时 称 之 为 最 佳 编码 。 哈 夫 曼 编 码 是 一 种 可 变 长 度 编 码 (Variable Length Coding， 
VLC) ， 各 符号 与 码 字 一 一 对 应 ， 是 一 种 分 组 码 。 下 面 引证 一 个 定理 ， 该 定理 保证 了 按 符号 出 现 
概率 分 配 码 长 ， 可 使 平均 码 长 最 短 。 

变 字 长 编码 的 最 佳 编 码 定 理 : 在 变 字 长 编码 中 ， 对 于 出 现 概率 大 的 符号 以 短 字 长 的 码 进行 
编码 ， 对 于 出 现 概 率 小 的 符号 以 长 字 长 的 码 进 行 编码 。 如 果 码 字 长 度 严 格 按照 所 对 应 符号 出 现 
的 概率 大 小 逆序 排列 ， 则 其 平均 码 字 长 度 一 定 小 于 其 他 任何 符号 顺序 排列 方式 。 
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像 己 视频 处 理 

















1. 哈 夫 曼 编 码 的 方法 











哈 夫 曼 码 的 码 表 产生 过 程 是 一 个 由 码 字 的 最 末 一 位 码 逐 位 向 前 确定 的 过 程 ， 具 体 的 编码 步 
又 如 下 。 
J 将 待 编 码 的 NN 个 信 源 符号 按 出 现 的 概率 由 大 到 小 顺序 排列 ， 如 图 5-3 所 示 。 给 排 在 最 后 
的 两 个 符号 的 最 末 一 位 码 各 赋予 一 个 二 进 制 码 元 ， 对 其 中 概率 大 的 符号 赋予 
号 赋予 “1”( 反 之 也 可 ) 。 这 一 步 只 确定 了 出 现 概率 最 小 的 两 个 符号 的 最 末 一 位 码 元 。 这 两 个 排 
在 最 后 的 符号 有 相同 的 码 长 ， 码 字 只 有 最 末 一 位 不 同 ， 前 面 各 位 均 相 同 ， 要 由 后 续 步 又 来 确定 。 














G@) 把 最 后 两 个 符号 的 概率 相 加 ， 求 出 的 和 作为 一 个 新 符号 的 出 现 概率 ， 











对 排 在 前 面 的 入 -2 个 符号 及 新 符号 重新 排序 ， 重 复 步骤 中 的 编码 过 程 。 


的 叶 绪 点 表示 ， 每 个 结 点 用 该 符号 的 











@) 重复 步骤 @， 直 到 最 后 只 剩 下 两 个 概率 值 为 止 。 




















“0"， 概 率 小 的 符 


再 按 步 又 中 方法 ， 


( 分 配 码 字 。 码 字 的 分 配 从 最 后 一 步 开 始 反 向 进行 ， 可 用 码 树 来 描述 。 待 编码 的 符号 用 树 











上 现 概率 来 标识 。 依 次 选择 概率 最 小 的 两 个 结 点 来 构成 中 


间 结 点 ， 直 至 形成 根 结 点 ， 这 棵 “ 树 ” 的 构造 就 完成 了 。 显 然 ， 最 终 树 的 根 结 点 的 概率 为 1。 在 


完成 树 的 构造 后 ， 每 个 结 点 的 两 个 分 校 用 二 进 制 码 的 两 个 码 元 




















“1” 或 “0” 分 别 标识 。 每 个 符 


号 所 对 应 的 哈 夫 曼 码 就 是 从 根 结 点 经 过 大 干 个 中 间 结 点 到 达 叶 结 点 的 路 径 上 遇 到 的 二 进 制 码 元 
“1” 或 “0” 的 顺序 组 合 。 


0. 


【 例 5-1】 设 有 离散 无 记忆 信 源 ， 符 号 x, 、 ww 、w 、x xs 的 出 现 概 率 分 别 为 0.4、0.2、0.2、 


1、0. 1， 其 哈 夫 曼 编码 过 程 如 图 5-3 所 示 。 




















符号 Xx， 概率 p(xi) 编码 过 程 码 字 有 玩 
zx 04 0.4 0.4 0.6 0 1 
2 0.2 0.2 > 1 01 
-= 0.4 0.4 
站 02 02 0 000 
1 
x4 01 0 02 0010 














1 
xs 0.1 1 0.2 0011 


图 5-3 ” 哈 夫 曼 编码 过 程 
信 源 业 为 
H(X) = - 0 logyp(x;) = 2. 12bit 符号 
哈 夫 明码 的 平均 码 字 长 度 为 。 
K= > a = 2. 2bit/ 符号 
编码 效率 为 


2. 哈 夫 曼 编码 的 特点 
哈 夫 曼 编码 具有 以 下 特点 。 
1) 喻 夫 曼 编码 的 算法 是 确定 的 ， 但 编 出 的 码 并 非 是 唯一 的 。 其 原因 如 下 








码 长 Ki 
1 
2 


3 


: 中 每 次 在 为 出 现 


概率 最 小 的 两 个 符号 确定 最 末 一 位 码 时 ， 典 “0” 或 “1” 可 以 是 任意 的 ， 概 率 大 的 符号 可 以 赋 
耶 “0”， 概 率 小 的 符号 赋予 “1”， 反 之 也 可 。 所 以 可 以 得 到 不 同 的 哈 夫 曼 码 ， 但 不 会 影响 各 个 
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符号 的 码 字 长 度 。@) 在 排序 过 程 中 知 有 两 个 或 两 个 以 上 的 符号 概率 相等 ， 其 次 序 也 可 以 是 任意 
的 ， 故 会 得 到 不 同 的 哈 夫 曼 码 ， 此 时 将 影响 符号 的 码 字 长 度 。 但 不 影响 哈 夫 曼 码 的 平均 码 长 和 编 
码 效率 。 

2) 由 于 哈 夫 曼 编 码 的 依据 是 信 源 符号 的 概率 分 布 ， 故 其 编码 效率 取决 于 信 源 的 统计 特性 。 
当 信 源 符号 的 概率 相等 时 ， 其 编码 效率 最 低 ; 只 有 在 概率 分 布 很 不 均匀 时 ， 哈 夫 曼 编码 才 会 收 到 
显著 的 效果 ; 当 符 号 出 现 概 率 分 布 为 2“" 型 时 ， 险 夫 曼 编码 能 使 平均 码 长 降 到 信 源 信 值 (x)， 
编码 效率 为 100% 。 如 果实 际 编码 时 信 源 的 概率 分 布 与 构造 码 表 时 所 假定 的 概率 分 布 模型 有 差 
异 ， 则 实际 编码 得 到 的 平均 码 长 将 大 于 预期 值 ， 编 码 效率 下 降 。 因 而 在 设计 码 表 时 ， 使 用 的 概率 
模型 应 尽量 接近 实际 信 源 的 概率 分 布 。 

3) 喻 夫 曼 编码 没有 错误 保护 功能 。 在 解码 时 ， 如 果 码 流 中 没有 错误 ， 那么 就 能 一 个 接 一 个 
地 正确 解 出 代码 。 但 如 果 码 流 中 有 和 错误， 哪怕 仅仅 是 1bit 出 现 错误 ， 也 会 引起 一 连 串 的 错误 ， 这 
种 现象 称 为 错误 传播 (Error Propagation ) 。 

4) 哈 夫 曼 编 码 是 可 变 长 度 码 ， 码 字 字 长 参差 不 章 ， 因 此 硬件 实现 起 来 不 大 方便 。 

5) 对 信 源 进行 哈 夫 曼 编码 后 ， 形 成 了 一 个 哈 夫 曼 编码 表 ， 解 码 时 ， 必 须 参 照 这 一 哈 夫 编码 
表 才 能 正确 解码 。 在 信 源 的 存储 与 传输 过 程 中 必须 首先 存储 或 传输 这 一 哈 夫 曼 编码 表 ， 在 实际 
计算 压缩 效果 时 ， 必 须 考虑 哈 夫 曼 编 码 表 占有 的 比特 数 。 在 某 些 应 用 场合 ， 信 源 概率 服从 于 某 一 
分 布 或 存在 一 定 规 律 (这 主要 由 大 量 的 统计 得 到 ) ， 这 样 就 可 以 在 发 送 端 和 接收 端 固定 哈 夫 曼 编 
码 表 ， 在 传输 数据 时 就 省 去 了 传输 哈 夫 曼 编 码 表 ， 这 种 方法 称 为 哈 夫 曼 编 码 表 缺 省 使 用 。 这 种 方 
法 适用 于 实时 性 要 求 较 强 的 场合 。 虽 然 这 种 方法 对 某 一 个 特定 应 用 来 说 不 一 定 最 好 ,但 从 总 体 
上 说 ， 只 要 哈 夫 曼 编 码 表 基于 大 量 概率 统计 ， 其 编码 效果 是 足够 好 的 。 


5.2.4 算术 编码 


按照 离散 、 无 记忆 信 源 的 无 失真 编码 定理 ， 在 理想 的 情况 下 ， 哈 夫 曼 编码 的 平均 码 长 可 以 达 
到 其 理论 下 限 ， 也 就 是 信 源 的 焙 ， 但 这 只 有 在 每 个 信 源 符号 的 信息 量 都 为 整数 时 才 成 立 ， 即 信 源 
每 个 符号 的 概率 分 布 均 为 2-”(n 为 整数 )。 例 如 ， 当 信 源 中 的 某 个 符号 出 现 的 概率 为 0.9 时 ， 其 
包含 的 自信 息 量 为 0. 152bit， 但 编码 时 却 至 少 要 分 配 1 个 码 元 的 码 字 ; 又 如 ， 编 码 二 值 图 像 时 ， 
因为 信 源 只 有 两 种 符号 “0” 和 “1”， 因 此 无 论 两 种 符号 出 现 的 概率 如 何 分 配 ， 都 将 指定 1bit。 
所 以 ， 哈 夫 曼 编码 对 于 这 种 只 包含 两 种 符号 的 信 源 输出 的 数据 一 点 也 不 能 压缩 。 

算术 编码 也 是 一 种 利用 信 源 概率 分 布 特性 的 编码 方法 。 但 其 编码 原理 与 哈 夫 曼 编码 却 不 相 
同 ， 最 大 的 区 别 在 于 算术 编码 跳出 了 分 组 编码 的 范畴 ， 它 在 编码 时 不 是 按 符号 编码 ， 即 不 是 用 一 
个 特定 的 码 字 与 输入 符号 之 间 建 立 一 一 对 应 的 关系 ， 而 是 从 整个 符号 序列 出 发 ， 采 用 递 推 形式 
进行 连续 编码 ， 用 一 个 单独 的 算术 码 字 来 表示 整个 信 源 符号 序列 。 它 将 整个 符号 序列 映射 为 实 
数 轴 上 [0，1) 区 间 内 的 一 个 小 区 间 ， 其 长 度 等 于 该 序列 的 概率 。 从 小 区 间 内 选择 一 个 代表 性 
的 二 进 制 小 数 ， 作 为 实际 的 编码 输出 ， 从 而 达到 高 效 编码 的 目的 。 不 论 是 否 为 二 元 信 源 ， 也 不 论 
数据 的 概率 分 布 如 何 ， 其 平均 码 长 均 能 双 近 信和 源 的 粹 。 

算术 编码 过 程 是 在 [0，1) 区 间 上 的 划分 子 区 间 过 程 ， 给 定 符号 序列 的 算术 编码 步骤 如 下 。 

Qa9 初始 化 : 编码 器 将 “当前 区 间 ” [ ov， high) 设置 为 [0，1) 。 

@ 对 每 一 个 信 源 符号 ， 分配 一 个 初始 编码 子 区 间 [symbol_low，symbol_high)， 其 长 度 与 信 
源 符号 出 现 的 概率 成 正比 。 当 输入 符号 序列 时 ， 编 码 器 在 “当前 区 间 ” 内 按照 每 个 信 源 符号 的 
初始 编码 子 区 间 的 划分 ， 以 一 定 的 比例 再 细 分 ， 选 择 对 应 于 当前 输入 符号 的 子 区 间 ， 并 使 它 成 为 
新 的 “当前 区 间 ” [oo ，jzejmz) 。 
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@ 重复 第 @ 步 ， 最 后 输出 的 “当前 区 间 ”[ low，high) 的 左 端点 值 low 就 是 该 给 定 符号 序列 
的 算术 编码 。 

下 面 举例 说 明 算 术 编 码 的 具体 过 程 。 

【 例 5-2】 假 设 信 源 符号 为 = |A，B,，C，D}， 各 符号 出 现 的 概率 为 P(X) = 10.1，0.4， 
0.2, 0.3|， 根据 这 些 概 率 可 把 区 间 [0，1) 分 成 4 个 子 区 间 : [0, 0.1)，[0.1, 0.5)， [0.5， 
0.7)，[0.7，1) ， 如 表 5-1 所 示 ， 如 果 输 入 的 符号 序列 为 CADACDB ， 求 其 算术 编码 。 


表 5-1 ， 信 源 符号 、 概 率 和 初始 编码 区 间 


符 号 A B C D 








为 








像 己 视频 处 理 























mm 























概率 0.1 0.4 0.2 0.3 
初始 编码 子 区 间 [0, 0.1) [0.1, 0.5) [0.5, 0.7) [0.7, 1) 




















解 : 算术 编码 的 步骤 如 下 。 
Q 初始 化 : 设置 当前 区 间 的 左 端点 值 low =0， 右 端点 值 high =1.0， 当 前 区 间 长 度 length =1.0。 
@) 对 符号 序列 中 每 一 个 输入 的 信 源 符号 进行 编码 ， 采 用 式 (5-6) 的 递 推 形式 。 
low = low + length x symbol_low 
| ， : (5-6) 
high = low + length x symbol_high 
式 中 ， 等 号 右边 的 low 和 length 分 别 为 前 面 已 编码 符号 序列 所 对 应 编码 区 间 的 左 端 点 值 和 区 间 长 
度 ; 等 号 左边 的 low 和 high 分 别 为 输入 待 编码 符号 后 所 对 应 的 “当前 区 间 ” 的 左 端点 值 和 右 端 
点 值 。 
“当前 区 间 ” 的 区 间 长 度 为 








length = high — low (5-7) 
。 对 输入 的 第 1 个 信 源 符号 C 编码 ， 有 
low = low + length x symbol_low =0 +1 x0.5 =0.5 
| = low + length x symbol_high =0 +1 x0.7=0.7 
所 以 ,输入 第 1 个 信 源 符号 C 后 ,编码 区 间 从 [0,1) 变 成 [0.5,0.7),“ 当 前 区 间 ” 的 区 间 长 度 为 
length = high -low =0.7 -0.5=0.2 
。 对 输入 的 符号 序列 CA 进行 编码 ,有 
low = low + length x symbol_low =0.5 +0.2 x0 =0.5 
| = low + length x symbol_high =0.5 +0.2 x0.1=0.52 
所 以 , 输入 第 2 个 信 源 符号 A 后 ， 编 码 区 间 从 [0.5,，0.7) 变 成 [0.5，0.52),“ 当 前 区 间 ” 的 
区 间 长 度 为 














length = high - low =0. 52 -0.5 =0.02 
。 对 输入 的 符号 序列 CAD 进行 编码 ， 有 
Low = low + length x symbol_low =0.5 +0.02 x0.7=0.514 
网 = /ow + length x symbol_high =0.5 +0.02 x1=0.52 
所 以 ， 输 入 第 3 个 信 源 符号 D 后 ， 编 码 区间 从 [0.5，0. 52) 变 成 【0.514，0.52) ,“ 当 前 区 间 ” 
的 区 间 长 度 为 








length = high — low =0. 52 -0.514 =0. 006 
。 对 输入 的 符号 序列 CADA 进行 编码 ， 有 
low = low + length x symbol_low =0. 514 +0.006 x0 =0.514 
人 = Low + length x symbol_high =0. 514 +0. 006 x0.1=0.5146 
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所 以 ， 输 入 第 4 个 信 源 符号 A 后 ， 编 码 区 间 从 [0.514，0.52) 变 成 [0.514，0. 5146) ，“ 当 前 
区 间 ” 的 区 间 长 度 为 





















































length = high — low =0. 5146 -0.514 =0. 0006 
。 对 输入 的 符号 序列 CADAC 进行 编码 ， 有 
low = low + length x symbol_low =0.514 +0. 0006 x0.5 =0.5143 
J = /Low + length x symbol_high =0. 514 +0. 0006 x0.7 =0.51442 
所 以 , 输入 第 5 个 信 源 符号 C 后 ， 编 码 区 间 从 [0.514, 0. 5146) 变 成 【0.5143，0. 51442) ,“ 当 前 
区 间 ” 的 区 间 长 度 为 





length = high — low =0. 51442 -0.3143 =0. 00012 
。 对 输入 的 符号 序列 CADACD 进行 编码 ， 有 
low = low + length x symbol_low =0. 5143 +0. 00012 x0.7 =0.514384 
Le = /Low + length x symbol_high =0. 5143 +0. 00012 x1 =0. 51442 
所 以 ， 输 入 第 6 个 信 源 符号 D 后 ， 编 码 区 间 从 [0. 5143，0. 51442) 变 成 [0.514384，0. 51442 ) ,“ 当 前 
区 间 ” 的 区 间 长 度 为 


length = high — low =0. 51442 -0.514384 = 0. 000036 


。 对 输入 的 符号 序列 CADACDB 进行 编码 ， 有 
low = low + length x symbol_low =0. 514384 +0. 000036 x0.1=0.5143876 
| = low + length x symbol_high =0. 514384 +0.000036 x0.5 =0.514402 
所 以 , 输入 第 7 个 信 源 符号 B 后 ,编码 区 间 从 [0.514384，0.51442) 变 成 [0.5143876， 
0. 514402) 。 最 后 从 [0.5143876，0. 514402) 中 选择 一 个 数 作为 编码 输出 ， 这 里 选择 0. 5143876。 
综 上 所 述 ， 算术 编码 是 从 全 序列 出 发 ,采用 递 推 形式 的 一 种 连续 编码 ， 使 得 每 个 序列 对 应 编 
码 区 间 内 一 点 ， 也 就 是 一 个 浮 点 小 数 。 这 些 点 把 [0, 1) 区 间 分 成 许多 子 区 间 ， 每 一 子 区 间 长 
度 等 于 某 序列 的 概率 。 符 号 序列 的 编码 输出 可 以 取 最 后 一 个 子 区 间 内 的 一 个 浮 点 小 数 ， 其 长 度 
可 与 序列 的 概率 匹配 ， 从 而 达到 高 效 的 目的 。 上 述 算术 编码 过 程 可 用 图 5-4 所 示 的 区 间 分 割 过 程 
描述 。 
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图 5-4 算术 编码 过 程 
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解码 是 编码 的 逆 过 程 ， 通 过 对 最 后 子 区 间 的 左 端 点 值 0. 5143876 进行 二 进 制 编码 ， 得 到 编码 
码 字 为 “10001100101101”。 

由 于 0.5143876 落 在 [0.5, 0.7) 区 间 内 ， 所 以 可 知 第 一 个 信 源 符号 为 C。 

解码 得 到 信 源 符号 C 后 ， 由 于 已 知 信 源 符号 C 的 初始 编码 子 区 间 的 左 端 点 值 symbol_low =0.5， 
右 端 点 值 symbol_high =0.7， 利 用 编码 可 首 性 ， 减 去 信 源 符号 C 的 初始 编码 子 区 间 的 左 端 点 值 
0. 5， 得 到 0.0143876， 再 用 信 源 符号 C 的 初始 编码 子 区 间 长 度 0. 2 去除， 得 到 0.071938， 由 于 已 
知 0.071938 落 在 信 源 符号 A 的 初始 编码 子 区 间 [0，0. 1)， a ee 
i ete nn oA ne eee he 

得 到 0.71938， 已 知 0.71938 落 在 信 源 符号 D 的 初始 编码 子 区 间 [0.7，1) ， 所 以 解码 得 到 

YI ee ， 依 此 类 推 。 

解码 操作 过 程 描述 如 下 。 

0. 5143876 -0 

1 


0. 5143876 -0. 5 








网 
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=0.5143876s [0.5,0.7) 之 C 





=0.071938s 10,0.1) 之 A 
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那么 算术 编码 与 符号 的 排列 顺序 是 否 有 关 呢 ? 早 在 1948 年 ， 香 农 (Shannon) 就 提出 将 信 源 
符号 按 其 概率 降序 排列 ， 用 符号 序列 累积 概率 的 二 进 制 表示 作为 对 信 源 的 编码 ; 1960 年 后 ， 
P. Elias 发 现 无 须 排 序 ， 只 要 编 、 解 码 端 使 用 相同 的 符号 顺序 即 可 ， 但 仍 需要 无 限 精度 的 浮 点 运 
算 ; 1976 年 ，R. Pasco 和 J. Rissanen 分 别 用 定 长 的 寄存 需 实 现 了 有 限 精 度 的 算术 编码 ， 但 仍 没有 
解决 有 限 精度 计算 固有 的 进位 问题 。 

从 上 面 的 例子 中 发 现 ， 随 着 输入 符号 越 来 越 多 ， 子 区 间 分 割 越 来 越 细 ， 因 此 表示 其 左 端点 的 
数值 的 有 效 位 数 也 越 来 越 多 。 如 果 等 整个 符号 序列 输入 完毕 后 再 将 最 终 得 到 的 子 区 间 左 端点 输 
出 ， 将 遇 到 如 下 两 个 问题 。 

1) 当 符 号 序列 很 长 时 ， 将 不 能 实时 编 解码 ; 

2) 有 效 位 太 长 的 数 难 以 表示 。 

为 了 解决 这 个 问题 ， 通 常 采用 两 个 有 限 精 度 的 移 位 寄存 器 存放 码 字 的 最 新 部 分 ， 随 着 序列 
中 符号 的 不 断 输入 ， 不 断 地 将 其 中 的 高 位 移 到 信道 上 ， 以 实现 实时 编 解码 。 
具体 编码 过 程 中 ， 如 果子 区 间 左 端点 和 右 端 点 中 的 最 高 位 相同 ， 则 相应 的 位 将 保持 不 变 。 按 
照 这 种 原理 ， 只 要 出 现 相同 的 最 高 位 就 将 它 移出 ， 保 证 寄存 器 中 的 位 数 不 发 生 江 出 。 另 外 ， 将 
1. 0 表示 为 0.1111111…， 以 便 移 位 操作 。 

下 面 通过 一 个 例子 分 析 应 用 移 位 寄存 器 的 算术 编码 及 解码 过 程 。 
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【 例 5-3】 设 信 源 符号 表 是 | a,，a,,， a;， 
ol ， 其 符号 出 现 的 概率 分 别 为 10.5，0.25， 
0. 125 ,0. 125| 。 如 果 输 入 序列 为 a,a;a,， 其 
算术 编码 的 子 分 过 程 如 图 5-5 所 示 。 

该 符号 序列 子 分 的 结果 ， 如 表 S$-2 所 示 。 
最 终 a, ww 的 区 间 宽 度 为 [0.71484375， 0.5 
0. 71875 ) 。 


al G2 a3 ad 









0.875 1.0 























4202 4203 





0207 


0.6875 0.71875 0.75 











应 用 8 位 移 位 寄存 器 的 编码 过 程 如 表 5-3 。 2 3 eg a 
所 示 ， 表 中 将 十 进 制 小 数 转化 为 二 进 制 小 数 ， 0.6875 0.71484375 0.71875 
如 0.5 表示 为 0. 10000000。 移 位 时 需要 注意 图 5-5 算术 编码 的 子 分 过 程 








的 是 ， a eat 而 
左 端 点 寄存 右 右 边 移 进来 的 是 0。 求 得 的 右 端点 0. 11 应 表示 为 0. 10111… 

















表 5-2 算术 编码 过 程 
步 ”又 输入 符号 输出 数值 范围 
0 初始 [0, 1) 
1 ay [0.5, 0.75) 
2 a3 [0. 6875, 0.71875) 
3 asy [0.71484375, 0.71875) 








表 5-3 应 用 8 位 移 位 寄存 器 的 编码 过 程 
































输 ”入 输 ”出 左 端点 右 端点 操 作 

初始 00000000 11111111 初始 区 间 [0，1) 

10000000 10111111 子 区 间 [0.5，0.75) 
及 10 00000000 11111111 左 移 2 位 

11000000 11011111 子 区 间 [0.75，0. 875) 
. 110 00000000 11111111 左 移 3 位 

11100000 11111111 子 区 间 [0.875，1.0) 
111 00000000 11111111 左 移 3 位 






































CQ ;序列 的 编码 结果 是 10110111。 








解码 过 程 如 下 。 

接收 端 收 到 的 比特 串 是 10110111， 解 码 是 将 该 比特 串通 过 与 限定 区 间 逐 次 比较 还 原 码 序列 
的 过 程 。 

当 收 到 第 1 个 比特 “1” 时 , 将 子 区 间 限 定 在 [0. 10000000，0. 11111111 ) ， 表 示 区 间 
[0.5，1.0) ， 对 照 图 5-5， 由 于 有 3 个 符号 都 可 能 在 此 范围 内 ， 即 a,、a; 或 a,。 因 此 ， 仅 有 第 一 





个 比特 不 足以 解 出 第 一 个 符号 ， 需 要 参考 后 续 的 比特 。 

当 收 到 第 2 个 比特 “0” 时 ， 将 子 区 间 限 定 在 [0. 10000000，0. 10111111)， 表示 区 间 
[0.5，0.75) ， 能 够 解 出 a,。 

当 收 到 第 3 个 比特 “1” 时 ， 先 将 前 面 解 出 的 w 对 应 的 码 字 “10” 去 掉 ， 将 子 区 间 限 定 在 
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为 








[0. 10000000, 0. 11111111) ， 表 示 区 间 [0.5，1.0) ， 限 定 在 3 个 符号 范围 内 ， 即 a,、a; 或 a 还 
不 能 确定 ， 因 此 ， 需 要 参考 后 续 的 比特 。 

当 收 到 第 4 个 比特 “1” 时 ,将 子 区 间 限 定 在 [0. 11000000，0. 11111111 ) ， 表 示 区 间 
[0.75，1.0) ， 限 定 在 2 个 符号 范围 内 ， 即 c 和 还 不 能 确定 。 

当 收 到 第 5 个 比特 “0” 时 , 将 子 区 间 限 定 在 [0. 11000000，0. 11011111 ) ， 表 示 区 间 
[0.75，0. 875) ， 能 够 解 出 a,。 

同 理解 出 最 后 一 个 符号 a,。 最 终 得 到 解码 结果 为 a,asa, 。 

算术 编码 的 最 大 优点 之 一 在 于 它 具 有 自 适应 性 和 高 的 编码 效率 。 算 术 编 码 的 模式 选择 直接 
影响 编码 效率 ， 其 模式 有 固定 模式 和 自 适 应 模式 两 种 。 固 定 模式 是 基于 概率 分 布 模型 的 ， 而 在 自 
适应 模式 中 ， 其 各 符号 的 初始 概率 都 相同 ， 但 随 着 符号 顺序 的 出 现 而 改变 ， 在 无 法 进行 信 源 概率 
模型 统计 的 条 件 下 ， 非 常 适合 使 用 自 适 应 模式 的 算术 编码 。 

在 信 源 符号 概率 比较 均匀 的 情况 下 ， 算 术 编 码 的 编码 效率 高 于 哈 夫 曼 编码 。 但 在 实现 上 ， 由 
于 在 编码 过 程 中 需 设 置 两 个 寄存 器 ， 起 始 时 一 个 为 0， 另 一 个 为 1， 分 别 代表 空 集 和 整个 样本 空 
间 的 累计 概率 。 随 后 每 输入 一 个 信 源 符号 ， 更 新 一 次 ,同时 获得 相应 的 码 区 间 ， 解 码 过 程 也 要 逐 
位 进行 。 可 见 计算 过 程 要 比 哈 夫 曼 编码 的 计算 过 程 复 杂 ， 因 而 硬件 实现 电路 也 要 复杂 。 

算术 码 也 是 变 长 码 ， 编 码 过 程 中 的 移 位 和 输出 都 不 均匀 ， 也 需要 有 缓冲 存储 器 。 
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S.3 预测 编码 




















在 预测 编码 中 ， 如 果 能 够 准确 地 预测 作为 时 间 函 数 的 数据 源 的 下 一 个 输出 将 是 什么 , 或 者 
数据 源 可 以 准确 地 被 一 个 数学 模型 表示 ， 输 出 数据 总 是 和 模型 的 输出 保持 一 致 ， 则 可 以 准确 地 
预测 数据 。 然 而 ， 实 际 信号 源 是 不 可 能 满足 这 两 个 条 件 的 。 男 外 ， 从 信息 论 观点 来 看 ， 能 够 完全 
被 预测 ( 即 预测 误差 为 0) 的 信号 是 不 带 任何 信息 的 ， 因 而 不 需要 传送 。 所 以 ， 在 预测 编码 中 需 
要 用 预测 器 来 预测 下 一 个 样 值 ， 允 许 它 有 一 些 误差 。 

预测 编码 可 以 在 一 幅 图 像 内 进行 ， 我 们 称 之 为 帧 内 预测 编码 ;也 可 以 在 图 像 序列 之 间 进 行 ， 
我 们 称 之 为 帧 间 预 测 编 码 。 预 测 编 码 的 基本 原理 就 是 利用 图 像 数 据 的 空间 和 时 间 相 关 性 ， 用 相 
邻 的 已 编码 传输 的 像素 值 来 预测 当前 待 编码 的 像素 值 ， 然 后 对 当前 待 编码 像素 的 实际 值 与 预测 
值 之 差 值 〈 预 测 误差 ) 进行 编 码 传 输 ， 而 不 是 对 当前 像素 值 本 映 进 行 编码 传输 ， 以 去 除 图 像 数 
据 中 的 空间 相关 宛 余 或 时 间 相 关 宛 余 。 在 接收 端 ， 将 收 到 的 预测 误差 的 码 字 解 码 后 再 与 预测 值 
相 加 ， 得 到 当前 像素 值 。 

在 视频 编码 中 ， 根 据 预测 像素 选取 的 位 置 不 同 ， 预 测 编码 可 分 为 帧 内 预测 和 帧 间 预 测 两 种 。 
在 帧 内 预测 编码 时 ， 选 取 的 预测 像素 位 于 待 编码 像素 同一 帧 的 相 邻 位 置 ; 而 在 帧 间 预 测 编码 时 ， 
则 选取 时 间 上 相 邻 帧 间 的 像素 进行 预测 。 

帧 内 预测 编码 一 般 采 用 像素 预测 形式 的 差 值 脉冲 编码 调制 (DPCM) ， 其 优点 是 算法 简单 ， 
易于 用 硬件 实现 。 缺 点 是 对 信道 噪声 及 误 码 很 敏感 ， 会 产生 误 码 扩散 ， 使 得 图 像 质量 下 降 。 帧 内 
的 DPCM 的 编码 压缩 比 很 低 ， 现 在 很 少 单独 使 用 ， 一 般 要 结合 其 他 编码 方法 综合 使 用 。 

帧 间 预 测 编码 主要 利用 视频 序列 相 邻 帧 间 的 相关 性 ， 即 图 像 数据 的 时 间 相 关 性 来 达到 压缩 
的 目的 ， 可 以 获得 比 帧 内 预测 编码 高 得 多 的 压缩 比 。 帧 间 预 测 一 般 是 针对 图 像 块 的 预测 编码 。 主 
要 的 帧 间 预 测 编码 方法 有 帧 重复 法 、 帧 内 插 法 、 运 动 补偿 法 、 自 适应 交替 帧 内 / 帧 间 编 码 法 等 。 
其 中 运动 补偿 预测 编码 效果 最 好 ， 已 被 各 种 视频 编码 标准 所 采用 。 
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5.3.1 图 像 差 值 信号 的 统计 特性 


1. 帧 内 相 邻 像素 灰 度 差 值 信号 的 统计 特性 

对 于 常见 的 大 多 数 图 像 ， 相 邻 两 个 像素 的 差 值 的 统计 分 布 集中 在 “0” 附 近 。 这 里 ， 相 邻 像 
素 的 差 值 是 指 同一 行 相 邻 的 两 个 像素 f(i,j7) 和 f(i,j+1) 之 差 值 ， 或 者 同一 列 相 邻 两 个 像素 f(i, 7 
和 f(i+1,j) 之 的 差 值 。 

通过 观察 一 幅 数 字 图 像 发 现 ， 相 邻 像素 的 灰 度 值 总 是 相近 的 。 这 种 现象 说 明 ， 图 像 的 像素 间 
存在 着 很 强 的 相关 性 。 这 种 相关 性 通常 可 以 通过 图 像 的 相关 函数 、 条 件 概 率 和 差 值 信号 的 统计 
分 布 特性 进行 研究 。 

对 于 一 幅 数 字 图 像 ， 设 第 i 行 、 第 j 列 上 像素 的 亮度 值 为 f(i,j)， 与 它 同 一 行 但 在 它 前 一 列 
像素 的 亮度 值 为 Ai, -1) ， 而 与 它 同一 列 但 在 它 上 一 行 像素 的 亮度 值 为 Fi -1,7) ， 于 是 可 得 图 
像 在 垂直 方向 和 水 平方 向 相 邻 像素 间 的 差 值 信号 分 别 为 


dls) = -f/f(i-1,7) (5-8) 
du(i,]) =f(i,)) -f/(i,j-1) (5-9) 


图 5-6 是 图 像 在 水 平方 向 相 邻 像素 间 的 差 什 
信号 的 概率 分 布 。 由 图 看 出 ， 差 值 信号 绝对 值 较 
小 者 所 对 应 的 概率 大 ， 上 差 值 为 零 所 对 应 的 概率 
最 大 。 所 得 差 值 的 概率 分 布 集中 在 “0” 附 近 。 
对 垂直 方向 相 邻 像素 间 的 差 值 信号 也 有 类 似 的 统 
和 

分 像素 差 什 信 号 的 统计 特性 说 明 ， 如 果 用 -二 =- | i 
i a 会 使 传输 NR 
的 数码 率 降 低 ， 这 正 是 帧 内 预测 编码 的 依据 。 Oe 

2。 相 邻 帧 间 差 值 信号 的 统计 特性 

对 于 电视 或 活动 图 像 ， 相 邻 帧 间 差 值 信号 的 统计 特性 依赖 于 场景 的 内 容 和 摄像 机 的 运动 。 
帧 内 像素 间 存 在 着 较 强 的 相关 性 ， 称 之 为 帧 内 统计 特 人 性。 同样 ， 在 相 邻 帧 之 间 可 能 也 只 有 微小 的 
差别 ， 这 种 相 邻 帧 图 像 之 闻 的 相关 性 称 为 帧 间 统 计 特性 。 在 帧 闻 统 计 特性 中 ， 一 般 只 讨论 最 简单 
的 帧 间 差 值 的 统计 特性 。 

如 图 5-7 所 示 ， 相 邻 帧 间 差 值 是 指 在 序列 图 像 的 某 
一 个 固定 像素 位 置 (i j) 上 ， 当 前 帧 的 亮度 值 (i,)) 
与 上 一 帧 的 亮度 值 /,(i,j) 之 差 ， 即 


di(i,7) =fi(i,7) ~fili,]) (5-10) 


研究 表明 ， 在 很 多 应 用 中 ， 在 大 部 分 时 间 里 ， 场 景 
中 物体 的 运动 速度 是 较 慢 的 ， 这 时 帧 间 的 统计 相关 性 就 
会 增加 。 但 在 运动 较 剧烈 的 区 域 ， 像 素 间 的 相关 性 随 着 
运动 速度 的 增加 而 降低 ， 从 而 在 帧 间 预 测 结果 中 出 现 大 。 图 57 相 鄂 时 对 应 像素 位 置 不 查 几 
误差 的 概率 增加 。 相 邻 帧 间 差 值 信号 的 统计 特性 是 帆 间 预测 编码 的 依据 。 
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5.3.2 帧 内 预测 编码 


1. DPCM 系统 的 基本 原理 

差分 脉冲 编码 调制 (Differential Pulse Code Modulation ，DPCM) 系统 的 原理 框图 如 图 5-8 所 示 。 

这 一 系统 是 对 实际 像素 值 
与 其 估计 值 之 差 值 进行 量化 和 
编码 ， 然 后 再 输出 。 图 中 xv 为 
iy 时 刻 的 亮度 取样 值 。 预 测 器 
根据 ti、 时 刻 之 前 的 样本 值 x,， 
x ，…，Xw_1 对 x 做 预测 ， 得 到 
预测 值 $,。x、 和 人 之 间 的 误 

lm (C31l) 
量化 器 对 ev 进行 量化 得 到 
ey， 编 码 絮 对 所 进行 编码 输出 。 
接收 端 解码 时 的 预测 过 程 与 发 送 端 相 同 ， 所 用 预测 器 也 相同 。 接 收 端 恢复 的 输出 信号 x 和 和 发 送 
端 输入 的 信号 x, 的 误差 是 
Axy =Xy — XN =Xy— (Ky+ey) =Xy -Ky -ey =evy—ey (5-12) 

可 见 ， 答 入 输出 信号 之 间 的 误差 主要 是 由 量化 器 引起 的 。 当 Axv 足够 小 时 ， 输 入 信号 x、 和 
DPCM 编码 系统 的 输出 信号 xy 几 乎 一 致 。 假 设 在 发 送 端 去 掉 量 化 器 ， 直 接 对 预测 误差 进行 编码 、 
传送 ,那么 ev =ey， 则 xw -x% =0， 这 样 接收 端 就 可 以 无 误差 地 恢复 输入 信号 xv， 从 而 实现 信息 
保持 编码 。 当 系统 中 包含 量化 器 ， 且 存在 量化 误差 时 ， 输 入 信号 x、 和 恢复 信号 输出 x 之 间 一 定 
存在 误差 ， 从 而 影响 接收 图 像 的 质量 。 在 这 样 的 系统 中 就 存在 一 个 如 何 能 使 误差 尽 可 能 减 小 的 
问题 。 

2. 预测 模型 

预测 编码 的 关键 是 如 何 选择 一 种 足够 好 的 预测 模型 ， 使 预测 值 尽 可 能 与 当前 需要 传输 的 像 
素 实际 值 相 接近 。 

设 i 时 刻 之 前 的 样本 值 x ，* ，…，xw 与 预测 值 之 间 的 关系 呈现 某 种 函数 形式 ， 该 郴 数 一 般 分 
为 线性 和 非 线 性 两 种 ， 所 以 预测 编码 器 也 就 有 线性 预测 编码 器 和 非 线 性 预测 编码 器 两 种 。 

车 预测 值 4 与 各 样本 值 x, ，x,，…，x， ,之 间 呈 线性 关系 


= Da (5-13) 

式 中 ,a,(i=1, 2,，…, NN-1) 为 预测 系数 。 i ，…，N-1) 为 常数 ， 则 称 为 线性 
预测 。 

若 预 测 值 t, 与 各 样本 值 x, ，x,，…，xw_, 之 间 不 呈现 如 式 (5-13) 的 线性 组 合 关系 ， 而 是 非 
线性 关系 ， 则 称 为 非 线 性 预测 。 

在 图 像 数据 压缩 中 ， 常 用 如 下 几 种 线性 预测 方案 。 

1) 前 值 预测 ， 即 4 =x，,。 

2) 一 维 预测 ， 即 采用 同一 扫描 行 中 前 面 已 知 的 若干 个 样 值 来 预测 %,。 

3) 二 维 预 测 ， 即 不 但 用 同一 扫描 行 中 的 前 面 几 个 样 值 ， 而 且 还 要 用 以 前 几 行 扫描 行 中 样 值 
来 预测 t,。 


像 与 视频 处 理 





























图 5-8 DPCM 系统 的 原理 框图 
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上 述 讲 到 的 都 是 一 幅 图 像 中 相 邻 像素 点 之 间 的 预测 ， 统 称 为 帧 内 预测 。 

对 于 采用 隔行 扫描 方式 的 电视 图 像 ， 一 帧 分 成 奇 、 侦 两 场 ， 因 此 二 维 预 测 又 有 帧 内 预测 和 场 
内 预测 之 分 。 对 于 静止 画面 而 言 ， 由 于 相 邻 行 间距 离 近 ， 行 间 相 关 性 很 强 ， 采 用 帧 内 预测 对 预测 
有 利 。 但 对 于 活动 画面 ， 两 场 之 间 间 隔 了 20ms， 场 景 在 此 期 间 可 能 发 生 很 大 变化 ， 帧 内 相 邻 行 
间 的 相关 性 反而 比 场 内 相 邻 行 间 的 相关 性 弱 。 因 此 ， 隔 行 扫 描 电 视 信号 的 预测 编码 还 可 以 采用 
场 内 预测 。 


5.3.3 ” 帧 间 预 测 编码 


为 了 进一步 压缩 ， 常 采用 三 维 预测 ， 即 用 前 一 帧 来 预测 本 帧 。 由 于 视频 序列 (如 电视 、 电 
影 ) 的 相 邻 两 帧 之 间 的 时 间 间 隔 很 得， 通常 相 邻 帧 间 细 节 的 变化 是 很 少 的 ， 即 相对 应 像素 的 灰 
度 变 化 较 小 ， 存 在 极 强 的 相关 性 。 例 如 电视 电话 ， 相 邻 帧 之 间 通常 只 有 人 的 口 、 眼 等 少 部 分 区 域 
有 变化 而 图 像 中 大 部 分 区 域 没什么 变化 。 利 用 预测 编码 去 除 帧 间 的 相关 性 ， 可 以 获得 更 大 的 压 
缩 比 。 帧 间 预 测 在 序列 图 像 的 压缩 编码 中 起 着 很 重要 的 作用 。 

1. 运动 补偿 预测 

对 于 视频 序列 图 像 ， 采 用 帧 间 预 测 编码 可 以 减少 时 间 域 上 的 宛 余 度 ， 提 高 压缩 比 。 序 列 图 像 
在 时 间 上 的 完 余 情况 可 分 为 如 下 几 种 。 

1) 对 于 静止 不 动 的 场景 ， 当 前 帧 和 前 一 帧 的 图 像 内 容 是 完全 相同 的 。 

2) 对 于 运动 的 物体 ， 只 要 知道 其 运动 规律 ， 就 可 以 从 前 一 帧 图 像 推 算出 它 在 当前 帧 中 的 
位 置 。 

3) 摄像 头 对 着 场景 的 横向 移动 、 焦 距 变化 等 操作 会 引起 整个 图 像 的 平移 、 放 大 或 缩小 。 对 
于 这 种 情况 ， 只 要 摄像 机 的 运动 规律 和 镜头 改变 的 参数 已 知 ， 图 像 随时 间 所 产生 的 变化 也 是 可 
以 推算 出 来 的 。 

显然 ， 对 于 不 变 的 静止 背景 区 域 , 最 好 第 二 1 帧 
的 预测 函数 是 前 帧 预测 ， 即 用 前 一 帧 空间 位 
置 对 应 的 像素 预测 当前 帧 的 像素 。 但 是 对 于 
运动 区 域 ,这 种 不 考虑 物体 运动 的 简单 的 帧 
间 预 测 效果 并 不 好 。 如 果 有 办 法 能 够 跟踪 场 
景 中 物体 的 运动 ， 采 用 运动 补偿 技术 ， 再 做 
帧 间 预 测 ， 进 行 所 谓 的 “ 帧 间 运 动 补偿 预 | 
测 ” ， 则 会 更 充分 地 发 掘 序列 图 像 的 帧 间 相 
关 性 ， 预 测 的 准确 性 将 大 大 提高 。 如 图 5-9 
所 示 ， 在 第 上 -1 帧 里 ， 中 心 点 为 (x ，y ) 已 位 移 矢 量 
的 运动 物体 ， 若 在 第 大 帧 移动 到 中 心 点 为 
(xi +dx, y+ dy) 的 位 置 ， 其 位 移 矢 量 为 
D =(dx，dy)。 如 果 直 接 求 两 帧 间 的 差 值 ， 图 5-9 和 运动 物体 的 帧 间 们 移 
则 由 于 第 大 帧 的 运动 物体 (阴影 部 分 ) 与 第 
-1 帧 的 对 应 位 置 像素 (背景 部 分 ) 位 置 的 相关 性 极 小 ， 所 得 的 差 值 很 大 。 但 是 ， 若 能 对 运动 
物体 的 位 移 量 进行 运动 补偿 ， 即 将 第 万 帧 中 的 中 心 点 为 (x, + dz， + dy) 的 运动 物体 移 到 中 心 
点 为 (x,，y,) 的 位 置 ， 再 与 第 -1 帧 求 差 值 ， 显 然 会 使 相关 性 增 大 ， 预 测 精度 将 会 显著 提高 。 
这 种 处 理 方法 就 是 运动 估计 和 运动 补偿 预测 。 

所 谓 运 动 估计 ， 就 是 对 运动 物体 的 位 移 进行 估计， 即 对 运动 物体 从 前 一 帧 到 当前 帧 位 移 的 
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四 ) 数字 图 像 与 视频 处 理 


方向 和 像素 数 进行 估计 ， 也 就 是 求 出 运动 矢量 ; 而 运动 补偿 预测 就 是 根据 求 出 的 运动 矢量 ， 找 到 
当前 帧 的 像素 (或 像素 块 ) 是 从 前 一 帧 的 哪个 位 置 移动 过 来 的 ， 从 而 得 到 当前 帧 像素 (或 像素 
块 ) 的 预测 值 。 显 然 ， 获 得 好 的 运动 补偿 的 关键 是 运动 估计 的 精度 。 

2. 运动 估计 

运动 估计 技术 主要 分 两 大 类 : 像素 递归 法 和 块 匹 配 算法 (Block Match Algorithm, BMA), 

像素 递归 法 根据 像素 间 亮 度 的 变化 和 梯度 ， 通 过 递归 修正 的 方法 来 估计 每 个 像素 的 运动 矢量 。 
每 个 像素 都 有 一 个 运动 矢量 与 之 对 应 。 为 了 提高 压缩 比 ， 不 可 能 将 所 有 的 运动 矢量 都 编码 传输 到 接 
收 端 ， 但 为 了 进行 帧 间 运 动 补偿 ， 在 接收 端 解码 每 个 像素 时 又 必须 有 这 些 运 动 矢量 。 解 决 这 个 矛盾 
的 办 法 是 让 接收 端 在 与 发 送 端 同样 的 条 件 下 ， 用 与 发 送 端 相同 的 方法 进行 运动 估计 。 由 于 此 时 只 利 
用 已 解码 的 信息 ， 因 此 ， 无 须 传送 运动 矢量 。 该 方法 的 代价 是 接收 端 较 复 杂 ， 不 利于 一 发 多 收 (如 
数字 电视 广播 等 ) 的 应 用 。 但 这 种 方法 估计 精度 高 ， 可 以 满足 运动 补偿 帧 内 插 的 要 求 。 

考虑 到 计算 复杂 度 和 实时 实现 的 要 求 ， 块 匹配 算法 已 成 为 目前 最 常用 的 运动 估计 算法 。 在 
块 匹 配 算法 中 ， 先 将 当前 帧 图 像 (第 k 帧 ) 分 割 成 知 干 个 W x w 的 图 像 子 块 ， 并 假设 位 于 同一 图 
像 子 块 内 的 所 有 像素 都 做 相同 的 运动 ， 且 只 做 平移 运动 。 虽 然 实际 上 图 像 子 块 内 各 像素 的 运动 
不 一 定 相 同 ， 也 不 一 定 只 做 平移 运动 ， 但 当 M x 较 小 时 ， 上 述 假设 可 近似 成 立 。 这 样 做 的 目 
的 只 是 为 了 简化 运算 。 块 匹配 算法 对 当前 
帧 的 每 一 个 图 像 子 块 ， 在 前 一 帧 〈 第 大 -1 | CU2drmnaoX(CY2dmao 搜 索 区 
帧 ) 的 一 定 范围 内 搜索 最 佳 匹 配 的 块 ， 并 (第 和 1 帧 ) 


认为 本 图 像 子 块 就 是 从 前 一 帧 最 佳 匹配 块 i 
位 置 处 平移 过 来 的 ， 从 而 求 得 运动 矢量 。 


设 可 能 的 最 大 位 移 矢 量 为 (dx，，dy，) ， 
则 搜索 范围 为 (M +2dx,) x (N+2dy,)， 
如 图 5-10 所 示 。 

人 们 针对 块 划分 的 不 同 ， 以 及 搜索 策 
略 和 匹配 准则 不 同 ,产生 许多 不 同 的 块 匹 图 5-10 块 严 配 运动 佑 计算 法 
配 算法 方案 。 

(1) 图 像 子 块 的 划分 

在 实际 应 用 中 ， 图 像 子 块 大 小 的 选取 受到 两 个 矛盾 的 约束 。 网 像 子 块 较 大 时 ， 一 个 图 像 子 块 
可 能 包含 多 个 做 不 同和 运动 的 物体 ， 子 块 内 所 有 像素 都 做 相同 平移 运动 的 假设 难以 成 立 ， 影 响 估 
计 精 度 ; 但 若 图 像 子 块 太 小 ， 则 估计 精度 容易 受 噪 声 干 扰 的 影响 ， 不 够 可 靠 ， 而 且 传 送 运动 矢量 
所 需 的 附加 比特 数 过 多 ， 不 利于 数据 压缩 。 因 此 ， 必 须 恰 到 好 处 地 选择 图 像 子 块 的 大 小 ， 以 做 到 
两 者 兼顾 。 例 如 ， 在 MPEG-1、MPEG-2 等 视频 编码 标准 ， 一 般 都 用 16 x 16 大 小 的 图 像 子 块 作为 
匹配 单元 。 

为 了 提高 运动 估计 的 准确 性 ， 人 们 提出 了 各 种 不 同 的 图 像 子 块 划分 的 方法 ， 例 如 可 变 块 大 
小 划分 、 重 和 至 块 划 分 、 基 于 对 象 的 划分 等 。 

可 变 块 大 小 划分 将 图 像 划 分 为 大 小 不 同 的 子 块 ， 运 动 一 致 的 区 域 分 割 成 比较 大 的 子 块 ， 包 
含 复杂 运动 的 区 域 分 割 成 比较 小 的 子 块 。 可 变 块 大 小 划分 比 固定 块 大 小 划分 在 减少 图 像 失 真 上 
更 有 效 ， 而 且 也 能 减少 运动 矢量 的 数量 。 例 如 ， 在 H.264/MPEG-4 AVC 视频 编码 标准 中 ， 就 采 
用 了 可 变 大 小 的 块 划 分 。 

传统 的 块 匹配 方法 的 一 个 主要 问题 是 它 没有 对 相 邻 块 的 运动 过 渡 施 加 任何 约束 ， 很 容易 产 
生 块 效应 。 重 释 块 划分 可 以 在 一 定 程 度 上 解决 这 个 问题 。 
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(2) 匹配 准则 

匹配 准则 是 块 匹配 算法 中 比较 重要 的 一 个 部 分 ， 它 决定 了 什么 样 的 子 块 才 是 最 匹配 的 块 。 衡 量 
匹配 的 好 坏 有 不 同 的 准则 ， 常 用 的 匹配 准则 有 绝对 误差 和 (Sum of Absolute Difference，SAD) 最 小 
准则 、 均 方 误差 (Mean Squared Eror，MSE ) 最 小 准则 和 归 一 化 互相 关 消 数 ( Normalized Cross 
Correlation Function，NCCF) 最 大 准则 。 在 实际 应 用 中 也 可 以 对 它们 加 以 变换 。 

。 绝对 误差 和 (SAD) 最 小 准则 

绝对 误差 和 (SAD) 定义 为 


SAD(i,)) = 2, 2 [fmn) -fm+tint+i) | (5-14) 
式 中 , f(m, n) 为 第 大 帧 位 于 (m，n) 的 像素 值 ; f_, (m+i, n+j) 为 第 -1 帧 位 于 (m+i， 
n+j) 的 像素 值 ; i, j 分 别 为 水 平和 垂直 方向 的 位 移 量 ， 取 值 范 围 为 - dx, i<dx,，-dy,. /< 
dy ，。 若 在 某 一 个 (i,j) 处 SAD(i,j) 为 最 小 ， 则 该 点 就 是 要 找 的 最 优 匹配 点 ， 所 求 的 运动 矢量 
为 D=(dx, dy) =(i,))。 
。 均 方 误差 ( MSE) 最 小 准则 
均 方 误差 ( MSE) 定义 为 


MSECi,)) = i Dflmn) -fomtint))] (5-15) 


式 中 , f(m, n) 为 第 大 帧 位 于 (m，n) 的 像素 值 ; f_, (m+i, n+j) 为 第 -1 帧 位 于 (m+i， 
n+]) 的 像素 值 ，i, j 分 别 为 水 平和 垂直 方向 的 位 移 量 ， 取 值 范 围 为 - dx, i< dx,,s，- dy 
志 j 夺 dy,,,。 若 在 某 一 个 (i,j) 处 MSE(i,j7) 为 最 小 ， 则 该 点 就 是 要 找 的 最 优 匹 配点 ， 所 求 的 运 
动 拓 量 为 D= (dx, dy) = (i,])。 

。 归 一 化 互相 关 函 数 (NCCF) 最 大 准则 

归 一 化 互相 关 函 数 (NCCF) 定义 为 


M N 
BD Dhlmnfom+tint+)) 
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NCCF(i,)) = 一 es (5-16) 
之 fm,n) /> Sf m+iont)) 
若 在 某 一 个 (i,7) 处 NCCF(i,j) 为 最 大 ， 则 该 点 就 是 要 找 的 最 优 匹配 点 ， 所 求 的 运动 矢量 





为 D=(dx, dy) = (i,))。 

研究 表明 ， 上 述 各 种 匹配 准则 的 性 能 差别 不 显著 ,而 SAD 最 小 准则 不 需 做 乘法 和 运算， 实现 
简单 、 方 便 ， 因 此 硬件 实现 多 使 用 这 种 准则 。 

(3) 搜索 策略 

采用 什么 样 的 搜索 策略 也 是 块 匹配 算法 中 非常 重要 的 一 个 部 分 ， 人 们 和 希望 花 较 少 的 代价 找 
到 足够 精确 的 匹配 块 。 

最 简单 、 可 靠 的 方法 是 穷尽 搜索 (Full Search，FS) 法 ， 也 称 全 搜索 法 。 它 对 (M +2dx,,) x 
(N+2dy,,) 搜索 范围 内 的 每 一 像素 点 都 计算 SAD 值 ， 共 需 计算 (2dx,, +1) x (2dy,s+1) 个 
SAD 值 ， 从 中 找 出 最 小 的 SAD 值 ， 其 对 应 的 位 移 量 即 为 所 求 的 运动 矢量 。 此 方法 虽 计 算 量 大 ， 
但 最 简单 、 可 靠 ， 找 到 的 匹配 点 肯定 是 全 局 最 优点 ， 而 且 算 法 简单 ， 非 常 适合 用 专用 集成 电路 
(Application Specific Integrated Cireuit，ASIC) 芯片 实现 ， 因 此 具有 实用 价值 。 此 外 ， 为 了 减少 运 
动 估计 的 计算 量 ， 特 别 是 在 用 软件 实现 的 环境 中 ， 人 们 还 提出 了 许多 快速 搜索 算法 ， 如 二 维 对 数 
法 (LOGS) 、 三 步 搜 索 法 (3SS) 、 四 步 搜索 法 (4SS) 、 著 形 搜索 算法 (DS) 、 基 于 块 的 梯度 下 
降 搜索 法 (BBCGDS) 等 。 这 些 快速 搜索 算法 的 共同 之 处 在 于 它们 把 匹配 准则 函数 (例如 ，SAD) 
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趋 于 极 小 的 方向 视 同 为 最 小 失真 方向 ， 并 假定 匹 
配 准 则 也 数 在 偏离 最 小 失真 方向 时 是 单调 递增 的 ， 
即 认为 它 在 整个 搜索 区 内 是 (i, 7) 的 单 极 点 函 
数 ， 有 唯一 的 极 小 值 ， 而 快速 搜索 是 从 任 一 猜测 
点 开始 沿 最 小 失真 方向 进行 的 。 因 此 ， 这 些 快 速 
搜索 算法 实质 上 都 是 统一 的 梯度 搜索 法 ， 所 不 同 
的 是 搜索 路 径 和 步 长 有 所 区 别 。 

三 步 搜 索 法 的 搜索 过 程 如 图 5-11 所 示 。 

第 一 步 : 以 搜索 区 最 大 搜索 长 度 的 一 半 为 步 
长 ， 以 起 始点 (i, 7 为 中 心 ， 计 算 中 心 点 及 其 
周围 邻近 的 8 个 方向 共 9 个 搜索 点 的 SAD 值 ， 找 
到 SAD 为 最 小 的 某 个 点 。 在 本 例 中 ， 设 点 (i+3， 
J+3) 的 SAD 值 最 小 ， 而 被 视 为 位 移 矢 量 的 一 级 
近似 。 
第 二 步 ; 以 点 (i+3, j+3) 为 中 心 ， 步 长 图 5-11 三 步 搜索 法 的 搜索 示意 图 
减 为 原来 的 一 半 ， 计算 中 心 点 周围 邻近 8 个 点 的 SAD 值 ， 并 与 点 (i+3, j+3) 的 SAD 值 比较 ， 
找到 SAD 为 最 小 的 某 个 点 。 在 本 例 中 ， 设 点 (i+3, j+5) 的 SAD 值 最 小 ， 而 被 视 为 位 移 矢 量 
的 二 级 近似 。 

第 三 步 : 以 点 (i+3, j+5) 为 中 心 ， 步 长 再 减 一 半 ， 重 复 上 述 过 程 ， 直 到 所 要 求 的 精度 
为 止 。 

在 最 大 搜索 位 移 为 * 上 6， 要求 位 移 估 值 精度 为 一 个 像素 时 ， 经 过 三 步 得 到 最 终 的 位 移 矢 量 。 
本 例 中 ， 最 终 得 到 的 运动 矢量 为 D = (dx,，dy) =(2，6)， 三 次 搜索 步 长 分 别 为 3、2、1。 显 然 ， 随 
着 所 要 求 的 搜索 范围 的 扩大 和 估 值 精度 的 提高 ， 这 种 搜索 方式 的 步骤 可 以 不 止 三 步 ， 而 做 相应 
的 增加 。 

(4) 分 级 搜索 方法 

与 全 搜索 相 比 ， 快 速 搜索 的 运算 量 显著 减少 ， 特 别 是 随 着 搜索 范围 的 增 大 ， 这 一 效果 愈加 明 
显 。 但是， 实验 表明 ， 在 运动 估计 的 质量 方面 (这 可 以 由 运动 估计 所 得 运动 矢量 场 的 连续 性 来 
判断 ) ， 快 速 搜索 的 性 能 要 比 全 搜索 的 差 一 些 。 从 数学 的 角度 来 看 ， 各 种 运动 估计 的 方法 可 以 看 
作 是 为 求解 一 个 误差 最 小 化 问题 。 但 是 最 小 化 函数 一 般 有 许多 局 部 最 小 ， 快 速 搜 索 法 不 容易 达 
到 全 局 最 小 ， 除 非 它 很 接近 所 选择 的 初始 解 。 因 此 ， 人 们 又 提出 了 分 级 搜索 方法 ， 在 减少 运算 量 
的 同时 ， 力 求 接近 全 搜索 的 效果 ， 得 到 更 接近 真实 的 运动 位 移 矢 量 。 

在 分 级 搜索 方法 中 ， 先 通过 对 原始 
图 像 进行 空间 低 通 滤波 和 亚 采样 得 到 一 
个 图 像 序列 的 低 分 辨 率 表示 ， 再 对 所 得 
低 分 辩 率 图 像 进行 全 搜索 。 由 于 分 辩 率 
降低 ， 使 得 搜索 次 数 成 倍 减少 ， 这 一 步 
可 以 称 为 粗 搜 索 。 然 后 ， 再 以 低 分 辩 率 
图 像 搜 索 的 结果 作为 下 一 步 细 搜索 的 起 
始点 。 经 过 粗 、 细 两 级 搜索 ， 便 得 到 了 
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最 终 的 运动 矢量 估 值 。 
分 级 搜索 的 示意 图 如 图 5-12 所 示 ， 图 5-12 分 级 搜索 示意 图 
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用 金字 塔 结构 表示 通过 空间 低 通 滤波 和 亚 采 样 获得 的 较 高 层 (分 辨 率 较 低 ) 和 最 底层 原始 图 像 。 
佑 计 两 个 金字 塔 的 相应 级 间 的 运动 场 ， 从 顶层 (最低 分 辨 率 ) 开始 ， 然 后 进入 下 一 较 高 分 辨 率 
的 层 。 如 果 处 理 的 是 隔行 的 场 ， 需 要 对 隔行 图 像 进行 一 维 插值 来 产生 最 底层 的 图 像 ， 因 此 金字 塔 
最 底层 包含 了 隔行 图 像 ， 而 其 他 层 都 是 逐 行 图 像 。 在 每 一 个 新 的 较 高 分 辩 率 层 ， 对 在 前 一 个 较 低 
分 辨 率 层 得 到 的 运动 场 进行 插值 ， 形 成 当前 级 运动 的 初始 解 。 最 常见 的 金字 塔 结构 是 分 辨 率 在 
相 邻 两 级 之 间 的 水 平和 垂直 方向 上 都 是 减 半 的。 最 简单 的 是 采用 一 个 2 x2 均值 滤波 器 作为 低 通 
滤波 絮 。 

多 分 辩 率 在 运动 估计 中 的 应 用 依赖 于 使 用 的 运动 模型 。 几 乎 所 有 的 运动 佑 计 方 法 都 可 以 应 
用 多 分 辨 率 佑 计 方 法 来 减少 每 一 次 搜索 所 要 计算 的 点 数 。 


5.4 变换 编码 








































































































5.4.1 图 像 的 频率 域 统计 特性 

在 频率 域 上 上， 图 像 表现 为 不 同 频率 分 量 系数 的 分 布 。 按 照 空间 域 和 频率 域 的 对 应 关系 ， 空 间 
域 中 的 强 相关 性 ， 即 图 像 存在 大 量 的 平坦 区 域 ， 反 映 在 频率 域 中 就 是 图 像 的 能 量 集 中 于 低频 部 
分 ， 其 傅 里 叶 频 谱 集中 在 直流 附近 ， 因 此 只 需 传 输 直 流 分 量 及 低频 分 量 的 频谱 即 可 。 这 就 是 说 ， 










































































图 像 在 频率 域 中 呈现 低 通 特性 。 
频率 域 上 的 统计 特性 对 图 像 编码 特别 是 对 正 交 变 

换 编码 有 重要 意义 。 图 像 和 视频 信号 的 功率 谱 可 以 经 

傅 里 叶 变换 在 频率 域 测 量 ， 也 可 通过 在 空间 域 测 量 的 -20 

自 相关 函数 间接 计算 得 到 。 对 电视 信号 进行 大 量 测量 ~ 

所 得 的 实验 结果 表明 ， 电 视 信 号 的 绝 大 部 分 能 量 集中 -50 

于 直流 和 低频 部 分 。 电 视 信 号 的 功率 谱 如 图 5- 13 0 一 100 01 1 10 闫 康 MHz 
所 不。 图 5-13 ”电视 信号 的 功率 谱 





5.4.2 ”变换 编码 的 基本 原理 


与 预测 编码 一 样 ， 变 换 编码 是 通过 消除 信 源 序列 中 的 相关 性 来 达到 数据 压缩 的 。 变 换 编码 
与 预测 编码 之 间 的 区 别 在 于 ， 预 测 编码 是 在 空间 域 (或 时 间 域 ) 内 进行 的 ， 而 变换 编码 则 是 在 
变换 域 〈 或 频率 域 ) 内 进行 的 。 变 换 编码 不 是 直接 对 空间 域 的 图 像 信 号 进行 编码 ， 而 是 首先 将 
空间 域 图 像 信号 映射 变换 到 另 一 个 正 交 矢量 空间 (变换 域 )， 产 生 一 系列 变换 系数 ， 然 后 对 这 些 
变换 系数 进行 编码 处 理 。 这 样 做 的 理由 是 : 如 果 所 选 的 正 交 向 量 空间 的 基 向 量 与 图 像 本 身 的 特 
征 癌 量 很 接近 ， 那 么 在 这 种 正 交 向 量 空间 中 对 图 像 信 号 进行 描述 就 会 简单 很 多 ， 对 变换 系数 进 
行 压 缩编 码 ， 往 往 比 直接 对 图 像 数 据 本 身 进行 压缩 更 容易 获得 高 的 效率 。 

为 了 保证 平稳 性 和 相关 性 ， 同 时 也 为 了 减少 运算 量 ， 在 变换 编码 中 ， 一 般 在 发 送 端的 编码 天 
中 ， 先 将 一 帧 图 像 划 分 成 若干 个 Wx NN 像素 的 图 像 块 ， 然 后 对 每 个 图 像 块 逐一 进行 变换 编码 ， 最 
后 将 各 个 图 像 块 的 编码 比特 流 复合 后 再 传输 。 在 接收 端 ， 对 收 到 的 变换 系数 进行 相应 的 逆 变 换 ， 
再 恢复 成 图 像 数 据 。 

变换 编码 系统 通常 包括 正 交 变换 、 变 换 系数 选择 和 量化 编码 3 个 模块 。 需 要 说 明 的 是 ， 正 交 
变换 本 身 并 不 能 压缩 数据 ， 它 只 把 信号 映射 到 另 一 个 域 ， 但 由 于 变换 后 系数 之 间 的 相关 性 明显 
降低 ， 为 在 变换 域 里 进行 有 效 的 压缩 创造 了 有 利 条 件 。 空 间 域 中 一 个 Wx N 个 像素 组 成 的 图 像 块 
经 过 正 交 变换 后 ， 在 变换 域 变 成 了 同样 大 小 的 变换 系数 块 。 变 换 前 后 的 明显 差别 是 ， 空 间 域 图 像 
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块 中 像素 之 间 存 在 很 强 的 相关 性 ， 能 量 分 布 比较 均匀 ; 经 过 正 交 变换 后 ， 变 换 系数 间 相 关 性 基本 
解除 ， 近 似 是 统 计 独 立 的 ， 并 且 图 像 的 大 部 分 能 量 主要 集中 在 直流 和 少数 低空 间 频率 的 变换 系 
数 上 ， 通 过 选择 保留 其 中 一 些 对 重建 图 像 质量 重要 的 变换 系数 (丢弃 一 些 无 关 紧 要 的 变换 系 
数 ) ， 对 其 进行 适当 的 量化 和 炉 编 码 就 可 以 有 效 地 压缩 图 像 的 数据 量 。 而 且 图 像 经 某 些 变 换 后 ， 
系数 的 空间 分 布 和 频率 特性 能 与 人 眼 的 视觉 特性 匹配 ， 因 此 可 以 利用 人 类 视觉 系统 的 生理 和 心 
理 特性 ， 在 提高 压缩 比 的 同时 又 保证 有 较 好 的 主观 图 像 质量 。 

正 交 变换 的 物理 意义 可 以 用 一 个 简单 例子 来 说 明 。 把 N x WN 个 像素 组 成 的 图 像 块 看 成 是 一 个 
下 维 空间 中 的 一 个 点 ， 这 个 点 的 位 置 由 下 个 坐标 确定 ， 该 图 像 块 中 每 个 像素 的 值 相 当 于 一 个 坐 
标 值 。 为 直观 起 见 ， 设 一 个 图 像 块 由 1 x2 个 像素 组 成 ， 每 个 像素 的 值 取 8 个 灰 度 等 级 中 的 任 一 
个 ,wi 代表 其 中 第 一 个 像素 的 值 ，%, 代 表 第 二 个 像素 的 值 。 图 5- 14a 所 示 为 这 个 图 像 块 所 有 可 能 
的 组 合 ， 共 有 8 x8 =64 种 可 能 。 

对 一 般 图 像 而 言 ， 因 为 图 像 , 区 
内 容 是 缓 变 的 ， 所 以 相 邻 像素 间 | 。。。。。 
存在 很 强 的 相关 性 ， 绝 大 多 数 图 
像 块 中 的 相 邻 两 像素 灰 度 级 相等 
或 很 接近 ， 也 就 是 说 ， 在 图 5-14a 
中 x =x, 直线 (45° 线 ) 附近 的 实 
心 点 所 示 位 置 出 现 的 概率 很 大 。 

现在 进行 一 个 正 交 变 换 ， 即 
将 (x,，x,) 坐标 系 逆 时 针 旋 转 
45°， 如 图 5-14b 所 示 ， 得 到 新 坐标 系 (y, ，y,)。 可 以 看 到 ， 图 像 块 出 现 概率 大 的 区 域 位 于 坐标 
轴 y, 附 近 ， 这 表明 变量 y, 和 yy, 之 间 的 联系 远 没 有 x, 和 x, 之 间 的 联系 密切 ，y, 和 yy, 彼 此 在 统计 上 更 
为 独立 。 坐 标 轴 旋 转 后 ， 方 差 在 坐标 轴 上 的 分 布 也 发 生 了 改变 。 但 由 于 信号 的 能 量 并 未 改变 ， 因 
此 方差 的 总 和 不 变 ， 即 有 os + oz =02; +0?。 但 在 原来 的 坐标 系 中 ， 由 于 出 现在 两 个 坐标 轴 上 的 
像素 值 概率 分 布 大 致 相同 ， 因 此 cx* = ex 。 而 在 旋转 后 的 坐标 系 中 ， 图 像 块 在 坐标 轴 y, 上 的 投影 
范围 较 在 y, 上 的 投影 范围 要 大 得 多 ， 因 此 第 一 个 变换 系数 的 方差 要 明显 大 于 第 二 个 变换 系数 的 
方差 ， 即 o? >> o? 。 也 就 是 说 ， 变 换 后 图 像 信 号 的 能 量 主要 集中 在 变换 系数 y, 上。 

通过 这 种 变换 后 ， 各 坐标 轴 上 方差 的 不 均匀 分 布 正 是 正 交 变换 编码 实现 图 像 数据 压缩 的 理 
论 基 础 。 可 以 根据 能 量 在 各 变换 系数 上 的 不 均匀 分 布 的 统计 特点 进行 统计 编码 ， 还 可 以 按照 人 
眼 的 视觉 特性 只 保留 方差 较 大 的 那些 系数 ， 从 而 获得 更 高 的 压缩 比 。 上 述 过 程 可 以 推广 到 处 
理 NxW 的 像素 块 ， 所 不 同 的 只 是 变换 域 的 维 数 变 为 了 NN， 其 他 过 程 并 无 本 质 区 别 。 

综 上 所 述 ， 图 像 经 过 正 交 变换 能 够 实现 数据 压缩 的 物理 本 质 在 于 : 经 过 多 维 坐 标 系 中 适当 
的 坐标 旋转 和 变换 ， 散 布 在 各 个 坐标 轴 上 的 原始 图 像 数 据 在 选择 适当 的 新 坐标 系 中 集中 到 了 少 
数 坐 标 轴 上 ， 因 而 有 可 能 用 较 少 的 编码 比特 来 表示 一 个 图 像 块 ， 从 而 实现 图 像 数 据 压缩 。 
s.4.3 正 交 变 换 基 的 选择 

选择 不 同 的 正 交 基 和 向量， 可 以 得 到 不 同 的 正 交 变换 ， 比 如 人 们 熟知 的 离散 传 里 叶 变 换 
(DFT) 、 离 散 余弦 变换 (DCT) 、 沃 尔 什 -哈达 玛 变换 (WHT) 、 斜 变换 、K-L 变换 等 。 从 数学 上 
可 以 证 明 ， 各 种 正 交 变换 都 能 在 不 同 程度 上 减 小 随机 向 量 的 相关 性 ， 而 且 信号 经 过 大 多 数 正 交 
变换 后 ， 能 量 会 相对 集中 在 少数 变换 系数 上 ， 删 去 对 信号 贡献 较 小 (方差 小 ) 的 系数 ， 只 利用 
保留 下 来 的 系数 恢复 信号 时 ， 不 会 引起 明显 的 失真 。 
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图 5-14” 正 交 变 换 的 示意 图 
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图 像 信号 是 随机 向 量 ， 随 机 向 量 之 间 的 相关 程度 可 以 用 协 方差 表示 ， 多 个 随机 向 量 之 间 的 
协 方差 可 以 用 和 矩阵 形式 描述 ， 称 为 协 方差 矩阵 。 图 像 信 号 在 空间 域 的 协 方差 矩阵 表示 像素 间 的 
相关 情况 ， 而 变换 域 的 协 方差 矩阵 则 表示 变换 系数 间 的 相关 情况 ， 反 映 经 过 正 交 变换 后 图 像 解 
除 或 削弱 的 相关 性 情况 。 当 协 方差 矩阵 中 除 对 角 线 上 元 素 之 外 的 各 个 元 素 都 为 零 时 ， 就 相当 于 
































无 相关 性 。 因 此 ， 变 换 编码 的 关键 前 








种 正 交 变换 ， 使 变换 后 的 协 方差 矩阵 满足 或 接近 一 个 对 角 矩 阵 。 
如 果 经 过 正 交 变换 后 的 协 方差 矩阵 为 一 个 对 角 和 矩阵 ， 且 具有 最 小 均 方 误差 时 ， 该 变换 就 是 


在 于 : 在 已 知 信 源 的 情况 下 ， 根 据 它 的 协 方差 矩阵 去 寻找 一 


























最 佳 变换 。 在 理论 上 ，K-L 变换 是 在 均 方 误差 (MSE) 准则 下 的 最 佳 变换 ， 它 是 建立 在 统计 特性 
基础 上 的 一 种 变换 ， 有 的 文献 也 称 为 霍 特 林 (Hotelling) 变换 ， 因 他 在 1933 年 最 先 给 出 将 离散 





信和 号 变换 成 一 串 不 相关 系数 的 方法 。 














经 K-L 变换 后 各 变换 系数 在 统计 上 不 相关 ， 其 协 方差 矩阵 





为 对 角 和 矩阵 ， 因 而 大 大 减少 了 原 数据 的 宛 余 度 。 如 果 丢 弃 特 征 值 较 小 的 一 些 变换 系数 ， 那 么 ， 所 














造成 的 均 方 误差 在 所 有 正 交 变换 中 是 最 小 的 。 但 在 对 图 像 进行 编码 时 ， 由 于 K-L 变换 是 取 原 图 
像 各 子 块 的 协 方差 矩阵 的 特征 向 量 作为 变换 基 向 量 ， 因 此 K-L 变换 的 变换 基 是 不 固定 的 ， 且 与 




















编码 对 象 的 统计 特性 有 关 ， 这 种 不 硼 








定性 使 得 K-L 变换 在 实际 使 用 中 极为 困难 。 所 以 尽管 K-L 











变换 的 性 能 最 佳 ， 但 一 般 只 在 理论 上 将 它 作为 评价 其 他 变换 方法 性 能 的 参考 。 





























就 数据 压缩 而 言 ， 所 选择 的 变换 方式 最 好 能 与 输入 信和 号 的 特征 相 匹配 ， 此 外 ， 还 应 从 失真 要 











求 、 实 现 的 复杂 度 以 及 编码 比特 率 等 多 方面 来 综合 考虑 。 在 实际 编码 应 用 中 ， 人 们 更 常 采 用 离散 
余弦 变换 (DCT) 。 因 为 对 大 多 数 图 像 信 源 来 说 ，DCT 的 性 能 最 接近 K-L 变换 ， 同 时 其 变换 基 向 
量 是 固定 的 ， 且 有 快速 算法 ; 与 离散 传 里 叶 变 换 (DFT) 相 比 ， 只 有 实数 运算 ,没有 虚数 运算 ， 
易于 用 超大 规模 集成 电路 (Very Large Scale Integrated circuit，VLSI) 实现 ， 所 以 现 有 的 视频 编码 






































标准 (如 MPEG-x、H. 26x) 都 采用 





了 基于 DCT 的 编码 。 


5.4.4 基于 DCT 的 图 像 编码 
下 面 以 基于 DCT 的 图 像 编码 为 例 来 说 明 数 据 压缩 的 原理 。 基 于 DCT 的 图 像 编码 和 解码 的 基 


本 框图 如 图 5-15 所 示 。 














图 5-15 基于 DCT 的 图 像 编 码 和 解码 的 基本 框图 











首先 把 一 幅 图 像 ( 单 色 图 像 的 灰 度 值 或 彩色 图 像 的 亮度 分 量 或 色 度 分 量 信 号 ) 分 成 大 小 





为 8 x8 像素 的 图 像 子 块 。DCT 的 输 








和 yy 分别 表示 像素 空间 位 置 的 水 平和 垂直 坐标 ,x =0，1，…，7; y=0，1，…,， 7)， 实 际 上 是 








入 是 每 个 8 x8 图 像 子 块 样 值 的 二 维 数 组 f(x,，y) (这 里 的 x 

















64 点 离散 信号。 














8 x8 二 维 DCT 变换 和 8 x8 二 维 DCT 反 变 换 的 数学 表达 式 分 别 为 
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a CCu) Co) > Df) eos (2x + Dus,, 






































f(x,y) = EY 2 CW CW) Pu) eos 








5 i (5-17) 
(2x oo (2y i (5-18) 


式 中 ， 当 w=wv=0 时 , C(u) =C(v) -二 当 vw、2 为 其 他 值 时 , C(w) =C(v) =1。 


别 





8 x8 二 维 DCT 反 变 换 的 变换 核 隐 数 为 C(u)C(wv)cos (2% 二 os 生生 按 凡 ,ov 分 








展开 后 得 到 64 个 8 x8 像素 的 图 像 块 组 ， 称 为 基 图 像 ， 如 图 5-16 所 示 。w=0 和 w=0 时 ， 图 像 


在 x 和 yy 方向 都 没有 变化 ; w=0 和 w=1 ~7 时 对 应 最 左 一 列 的 图 像 块 ,x 方向 没有 变化 ; v=0 和 
4=1 ~7 时 对 应 最 上 一 行 的 图 像 块 ，y 方向 没有 变化 ; w=7 和 ”= 7 时 对 应 右 下 方 的 图 像 块 ， 图 
像 在 x 和 yy 方向 上 的 变化 频率 是 最 高 的 。 
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”。64 个 变换 系数 中 








由 








S 



















































is 
Wa Wl en a Sel 








EE 





| 

I 
wi 
cm 
ee 
一 
三 
= 


| 一 才 
[= 省 
LE 


Dm 





am 
二 = 

















图 5-16 8 x8 二 维 DCT 的 基 图 像 


可 以 把 DCT 变换 看 作 是 把 一 个 图 像 块 表示 为 基 图 像 的 线性 组 合 ， 这 些 基 图 像 是 输入 图 像 块 
的 组 成 “频率 "” 。DCT 变换 输出 64 个 基 图 像 的 幅 值 称 为 “DCT 系数 ”"， 是 输入 图 像 块 的 “ 频 



































包括 一 个 代表 直流 分 量 的 “DC 系数 ”和 63 个 代表 交流 分 量 的 “AC 系 


数 "。 可 以 把 DCT 反 变 换 看 作 是 用 64 个 DCT 变换 系数 经 道 变换 运算 ， 重 建 一 个 8 x8 像素 的 图 像 
块 的 过 程 。 
随 着 wx，?* 的 增加 ， 相 应 系数 分 别 代 表 逐 步 增 加 的 水 平 空 间 频 率 和 垂直 空间 频率 分 量 的 大 小 。 
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右上 角 的 系数 F(C7，0) 表示 水 平方 向 频率 最 高 、 垂 直方 向 频率 最 低 的 分 量 大 小 ， 左 下 角 的 系数 
(0,，7) 表示 水 平方 向 频率 最 低 、 垂 直方 向 频率 最 高 的 分 量 大 小 ， 右 下 角 的 系数 F(C7，7) 表示 
水 平方 向 频率 和 垂直 方向 频率 都 最 高 的 高 次 谐 波 分 量 的 大 小 。 子 块 图 像样 本 值 及 其 DCT 系数 的 
二 维 数组 的 示意 图 如 图 5-17 所 示 。 










































































/(0, 0) F(0, 0) 











F(7,7) 
































a) 子 块 图 像样 本 值 b) DCT 系 数 
图 5-17 子 块 图 像样 本 值 及 其 DCT 系数 的 二 维 数组 


为 了 达到 压缩 数据 的 目的 ， 对 DCT 系数 FR(w,，v) 还 需 做 量化 处 理 。 量 化 处 理 是 一 个 多 到 
一 的 映射 ， 它 是 造成 DCT 编 解 码 信 息 损 失 的 根源 。 在 量化 过 程 中 ,应 根据 人 了 眼 的 视觉 特性 ， 
对 于 可 见 度 国 值 大 的 频率 分 量 允许 有 较 大 的 量化 误差 .使 用 较 大 的 量化 步 长 (量化 间隔 ) 进 
行 粗 量化 ;而 对 可 见 度 阔 值 小 的 频率 分 量 应 保证 有 较 小 的 量化 误差 ， 使 用 较 小 的 量化 步 长 进 
行 细 量 化 。 按 照 人 眼 对 低频 分 量 比较 敏感 ， 对 高 频 分 量 不 太 敏 感 的 特性 ， 对 不 同 的 变换 系数 
设置 不 同 的 量化 步 长 。 假 设 每 个 系数 的 量化 都 采用 线性 均匀 量化 ， 则 量化 处 理 就 是 用 对 应 的 
量化 步 长 去 除 对 应 的 DCT 系数 ， 然 后 再 对 商 值 四 舍 五 入 取 整 ， 用 公式 表示 为 


Q(u,v) -oond [Se 
式 中 ，S(wu, v) 是 与 每 个 DCT 系数 F(wuw,v) 对 应 的 量化 步 长 ，0(wu，, v) 为 量化 后 的 系数 。 

JPEG 标准 中 每 个 亮度 和 色 度 DCT 系数 的 量化 步 长 S(wu, v) 的 值 分 别 如 表 5-4 和 表 5-5 
所 示 。 
































(5-19) 





表 5-4 亮度 量化 表 























16 11 10 16 24 40 51 61 
12 12 14 19 26 58 60 39 
14 13 16 24 40 57 69 56 
14 17 22 29 51 87 80 62 
18 22 37 56 68 109 103 人 
24 35 55 64 81 104 113 92 
49 64 78 87 103 121 120 101 
72 92 95 98 112 100 103 99 
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表 5-5 色 度 量化 表 












































17 18 24 47 99 99 99 99 
18 21 26 66 99 99 99 99 
24 26 56 99 99 99 99 99 
47 66 99 99 99 99 99 99 
99 99 99 99 99 99 99 99 
99 99 9 99 99 99 99 99 
99 99 99 99 99 99 99 99 
99 99 99 99 99 99 99 99 


上 述 两 个 量化 表 中 的 量化 步 长 值 是 通过 大 量 实验 并 根据 主观 评价 效果 确定 的 ， 其 值 随 DCT 
系数 的 位 置 而 改变 ， 同 一 像素 的 亮度 量化 表 和 色 度 量化 表 不 同 ， 两 个 量化 表 都 包含 64 个 元 素 ， 
与 64 个 变换 系数 一 一 对 应 。 从 表 中 可 以 看 出 ， 在 量化 表 中 的 左上 角 及 其 附近 区 域 的 数值 较 小 ， 
而 在 右 下 角 及 其 附近 区 域 的 数值 较 大 ， 而 且 色 度量 化 步 长 比 亮度 量化 步 长 要 大 ， 这 是 符合 人 眼 
的 视觉 特性 的 。 因 为 人 的 视觉 对 高 频 分 量 不 太 敏感 ， 而 且 对 色 度 信号 的 敏感 度 较 对 亮度 信号 的 

















敏感 度 低 。 

经 过 量化 后 的 变换 系数 是 一 个 8 x8 
的 二 维 数组 结构 。 为 了 进一步 达到 压缩 
数据 的 目的 ， 需 对 量化 后 的 变换 系数 进 “二 六 未 灼 _[C 
行 基于 统计 特性 的 烂 编 码 。 为 了 便于 进 
行业 编 码 和 实现 码 字 的 串 行 传输 ， 还 应 


ACo 











1 交流 系数 扫描 开始 
ACo7 











把 此 量化 系数 按 一 定 的 扫描 方式 转换 成 




















一 维 的 数据 序列 。 一 个 有 效 的 方法 叫 Zig- 
Zag (或 称 “Z” 字 形 ,“ 之 ”字形 ) 扫描 ， 





如 图 $- 18 所 示 。 利 用 Zig- Zag 扫描 方式 ， 





可 将 二 维 数组 Ql(u, D)(L=0，1，…，7; 
v=0，1,，…, 7) 变换 成 一 维 数组 0 (m) 
(m=0,1,，…，63)， 并 且 以 直流 分 量 
和 低频 分 量 在 前 、 高 频 分 量 在 后 的 次 序 
排列 。 由 于 经 DCT 后 ， 幅 值 较 大 的 变换 图 5 
系数 大 多 集中 于 左上 角 ， 即 直流 分 量 和 














AC70 














交流 系数 
扫描 结束 




















-18 ”Zig-Zag 扫描 次 序 示意 图 








低频 分 量 ; 而 右 下 角 的 高 频 分 量 的 系数 都 比较 小 ， 经 量化 后 其 系数 大 部 分 变 为 “0”， 这 样 ， 采 
用 Zig-Zag 扫描 方式 ， 可 以 使 量化 系数 为 0 的 连续 长 度 增长 ， 有 利于 后 续 的 游 长 编码 。 








在 对 一 维 数组 0 (m) 进行 炉 编 码 时 ， 要 把 直流 分 量 (DC) 和 交流 分 量 (AC) 的 量化 系数 
分 成 两 部 分 分 别 进 行 处 理 。 由 于 相 邻 像素 间 存 在 的 相关 性 ， 相 邻 图 像 子 块 的 直流 分 量 ( 图像 子 
块 的 平均 像素 值 ) 也 存在 着 相关 性 ， 所 以 对 DC 的 量化 系数 用 DPCM 编码 较 合 适 ， 即 对 当前 块 和 
前 一 块 的 DC 系数 的 差 值 进行 编码 。 对 于 DC 系数 后 面 的 AC 系数 ， 则 把 数值 为 0 的 连续 长 度 
( 即 0 的 游 长 ) 和 非 0 值 结合 起 来 构成 一 个 事件 (Run，Level) ， 然 后 再 对 事件 (Run，Level) 进 
行 烂 编码 。 这 里 的 Run 是 指 不 为 0 的 量化 系数 前 面 的 0 的 个 数 ，Level 是 指 不 为 0 的 量化 系数 的 
大 小 〈 幅 值 ) 。 这 里 的 焙 编 码 可 以 采用 哈 夫 曼 编 码 ， 也 可 以 采用 算术 编码 。 知 不 为 0 的 量化 系数 









































后 面 的 系数 全 为 0 的 话 ， 则 用 一 个 特殊 标记 块 结束 (End 
输出 ， 这 样 可 节省 很 多 数据 量 。 
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of Block ，EoB) 的 码 字 来 表示 ， 以 结束 











第 5 章 [AR 
数字 图 像 与 视频 压缩 编码 原理 















































【 例 5-4】 设 一 个 8 x8 图 像 子 块 的 亮度 样 值 阵列 为 


[78 75 79 82 82 86 94 94 
76 78 76 82 83 86 85 94 
72 75 67 78 80 78 74 82 
74 76 75 75 86 80 81 79 
73 70 75 67 78 78 79 85 
69 63 68 69 75 78 82 80 
76 76 71 71 67 79 80 83 

[72 77 78 69 75 75 78 78 


f(x,，y) 经 过 DCT 运算 后 得 到 的 变换 系数 阵列 为 


| 619 -29 8 2 1 -3 0 1 








f(x,y) = 











22 -6 -4 0 7 0 -2 -3 
11 0 5 -4 -3 4 0 -3 
pa 
6 2 -1 -1 -3 0 0 8 
2 1 2 2 -2 -2 
-8 -2 -4 1 -1 1 
[|-3 1 5 -2 1 -1 1 -3 
F(u, v) 经 量化 处 理 后 得 到 的 系数 阵列 为 
[39 -3 100000 
2 -1000000 
1 0 000000 
0 -1000000 
Ou 0 000000 
0 0 000000 
0 0 000000 
[lo 0 000000 
对 OQ(wu,，v) 采用 Zig-Zag 扫描 后 进行 炉 编 码 ， 输 出 码 流 。 











接收 端 解码 需 执 行 逆 操 作 ， 将 收 到 的 码 流 经 烂 解码 后 恢复 成 二 维 数组 形式 。 由 于 箭 编码 是 
无 失真 编码 ， 所 以 0'(u, v) =0(u, v)。 
| 39 -3 
一 1 


Q' (u,v) = (u,v) = 


人 
Es 
So RY RY od OY 
Ee 
全 
EY YY 0 





对 0'(wu,v) 进行 逆 量 化 后 得 到 
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F'(u,v) = 








| 74 
77 
78 
74 
09 
08 
73 
1L78 


f (x,y) = 














从 上 面 这 个 例子 可 以 看 出 ,64 个 像素 的 亮度 样本 值 经 过 DCT 运算 后 ,仍然 得 到 64 个 变换 系 
数 ,DCT 本 身 并 没有 压缩 数据 。 但 是 ,经 DCT 后 幅 值 较 大 的 变换 系数 大 多 集中 于 左上 角 , 即 直流 分 
量 和 低频 分 量 ; 而 右 下 角 的 高 频 分 量 的 系数 都 比较 小 














ee S 件 。 


接收 端 解码 右 经 烂 解 码 、 逆 量化 后 得 到 带 有 一 定量 化 失真 的 变换 系数 玉 (wo) ,再 经 DCT 逆 变 
与 原始 图 像 子 块 相 比 较 , 两 者 数据 大 小 非常 接近 ,其 误 
差 主要 是 由 量化 造成 的 。 只 要 量化 吉 设 计 得 好 ,这 种 失真 可 限制 在 允许 的 范围 内 ,人 有 眼 是 可 以 接 








换 就 得 到 重建 图 像 子 块 的 样本 值 Ax,y) 。 





75 


77 


76 








75 


er = EE 





85 
82 


74 





受 的 。 因 此 ,基于 DCT 的 图 像 编 码 是 一 种 限 失真 编码 。 


5.5 MATLAB 编程 实例 


【 例 5-5】 请 编写 算术 编码 的 MATLAB 程序 。 


解 :MATLAB 代码 如 下 。 
% 算 术 编 码 
% 输 出 : 码 率 
% 输 入 : symbol: 字符 行 向 量 
% pr: 字符 出 现 概 率 
% seqin: 竺 编码 字符 串 
clear al] ; 
format long e; 
symbol = [ 'abcd' ]; 

=[0.40.20.10.3]; 

seqin =( 'dacab' ) ; 


codeword = arenc( symbol , pr, seqin) 


outseq = ardec( symbol , pr, codeword ,symlen ) 


% 实现 算术 编码 的 函数 


functionarcode = arenc( symbol ,pr,seqin) 
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亮度 样 值 阵 列 为 





77 


,经 量化 后 其 系数 大 部 分 变 为 0, 这 为 后 
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high_range =| ]; 
for k =1 :length( pr), 

high_range = [ high_range sum(pr(1:k))]; 
end 
low_range = [0 high_range(1:length(pr) -1) ]; 
sbidx = zeros( size( seqin) ) ; 
for 1=1 :length( seqin), 

sbidx(i) =find( symbol = = seqin(i) ); 


end 
low =0; 
high =1; 


for i=1 :length( seqin), 
range = high — low; 
high = low + range * high_range( sbidx(1i) ); 
low = low + range * low_range( sbidx(i) ); 
end 


arcode = low; 


多 实现 算术 解码 的 函数 

functionsymseq = ardec(symbol ,pr,codeword ,symlen ) 
% 给 定 字 符 概率 的 算术 编码 

% 输 出 : symseq: 字符 串 

% 输 入 : symbol: 由 字符 组 成 的 行 回 量 
% pr: 字符 出 现 概率 

% codeword: 码 字 

% symlen: 竺 解码 字符 串 长 度 


format long e 

















思 








high_range= | ]; 
for k =l:length(pr) ， 
high_range = [ high_range sum(pr(1:k) ) ]; 
end 
low_range = [0 high_range(1:length(pr) -1) ]; 
prmin = min(pr) ; 
symseq = [ ] ; 
for 1=1:symlen， 
idx =max(find(low_range < = codeword) ) ; 
codeword = codeword -low_range(idx) ; 
if abs(codeword -pr(idx) ) <0.01 * prmin ， 
idx =idx+1 
codeword =0; 
end 
symseq = [ symseq symbol(idx) ] ; 
codeword = codeword/pr(idx); 
if abs( codeword) <0. 01 * prmin, 
i=symlen +1; 
end 


end 





运行 结果 为 : 


codeword = 7.739200000000001e -001 


outseq = dacab 
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【 例 5-6】 输 入 一 幅 大 小 为 512 x512 像素 、 灰 度 级 为 256 的 标准 图 像 Lena， 将 其 分 割 成 4096 
个 8 x8 像素 子 图 像 ， 对 每 个 子 图 像 进行 DCT， 这 样 每 个 子 图 像 就 有 64 个 DCT 变换 系数 ， 伟 去 其 
中 32 个 较 小 的 变换 系数 ,保留 32 个 较 大 的 变换 系数 ,实现 2 : 1 的 数据 压缩 ， 然 后 进行 逆 变 换 。 

解 : 其 MATLAB 代码 如 下 。 

和 设置 压缩 比 er 

cr=0.5; %er=0.5 为 2:1 压 缩 ;er=0.125 为 8:1 压缩 

I= inmread( 'lena. bmp'); ”% 图 像 的 大 小 为 512 x512 像素 

I1 = double(1)/255;”% 图像 为 256 级 灰 度 图 像 , 对 图 像 进行 归 一 化 操作 





























figure(1) ; 
imshow(11); % 显 示 原 始 图 像 
和 对 图 像 进 行 DCT 


t= dctmtx(8) ; 
detcoe =blkproc(I1 ,[88],"P1*xkP2'tt'); 


coevar = im2col( dctcoe, [8 8] , 'distinct' ) ; 

coe = coevar; 

[y,ind] = sort( coevar); 

[m,n] =size(coevar); % 根 据 压 缩 比 确定 要 变 0 的 系数 个 数 
% 舍 去 不 重要 的 系数 

snum =64 -64 * cr; 

for i=1:n 


coe(ind(1:snum) ,i) =0;”% 将 最 小 的 snum 个 变换 系数 设置 为 0 





end 
b2 = col2im(coe,[8 8],[512 512],'distinct' ); ”% 重 新 排列 系数 矩阵 
% 对 截取 后 的 变换 系数 进行 DCT 逆 变 换 
ID =blkproc(b2,[8 8],'Plx*x*P2',t',t); % 对 截取 后 的 变换 系数 进行 DCT 道 变换 
figure(2); 
imshow( [2); 
% 计算 均 方 根 误差 erms 
e= double(IL) - double( [2); 
[m,n] =size(e); 
erms=sqrt(sum(e(:).2)/(m*n)) 
当 cr =0.5 时 ， 上 述 程序 实现 的 图 像 压 缩 比 为 2 : 1， 此 时 均 方 根 误差 erms =0. 0316; 当 cr = 
0. 125 时 ， 上 述 程 序 实现 的 图 像 压 缩 比 为 8 : 1， 此 时 均 方 根 误差 erms =0. 0378。 
上 面 的 MATLAB 程序 中 用 到 函数 detmtx( x) ， 该 函数 用 于 计算 二 维 DCT， 其 语法 格式 为 :+ = 
dctmtx( n), 其 功能 是 返回 n xn 的 DCT 和 矩阵 。 


Du 




















5.6 小 结 








在 多 媒体 信息 中 ， 图 像 和 视频 提供 的 信息 量 最 大 ， 数 字 化 后 的 数据 量 也 大 ， 这 给 多 媒体 信息 
的 存储 和 传输 增加 了 负担 。 因 此 ， 图 像 和 视频 压缩 是 多 媒体 技术 的 核心 技术 之 一 。 本 童 首先 阐述 
了 数字 图 像 和 视频 压缩 编码 的 必要 性 和 压缩 机 理 ， 回 顾 了 数字 图 像 和 视频 编码 技术 的 发 展 历程 ， 
然后 着 重 介绍 了 焙 编码 、 预 测 编码 和 变换 编码 的 基本 原理 。 

针对 信 源 的 不 同 特点 ， 人 们 提出 了 许多 实用 的 压缩 编码 技术 ， 可 以 分 为 无 失真 编码 和 限 失 
真 编码 两 大 类 。 

无 失真 编码 是 指 可 以 精确 无 误 地 从 压缩 数据 中 恢复 出 原始 数据 的 压缩 编码 方法 。 常 见 的 无 
失真 编码 方法 包括 游程 编码 、 哈 夫 曼 编码 和 算术 编码 。 
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游程 编码 适用 于 灰 度 级 不 多 、 数 据 相 关 性 很 强 的 图 像 数据 的 压缩 。 为 了 达到 较 好 的 压缩 效 
果 ， 游 程 编码 一 般 和 其 他 一 些 编码 方法 混合 使 用 。 

哈 夫 受 编 码 根据 每 个 符号 出 现 的 概率 大 小 进行 逐个 符号 编码 ， 用 较 短 的 码 字 表示 出 现 概率 
大 的 符号 ， 用 较 长 的 码 字 表示 出 现 概率 小 的 符号 。 哈 夫 曼 编码 器 的 设计 和 操作 和 较 简 单 ， 但 不 能 达 
到 具有 合理 复杂 度 的 无 损 编码 的 界限 ， 也 难以 使 哈 夫 曼 编码 器 适应 信号 统计 特性 的 变化 。 

算术 编码 是 对 符号 序列 而 不 是 符号 序列 中 的 单个 符号 进行 编码 ， 其 编码 效率 一 般 要 高 于 哈 
夫 曙 编码。 算术 编码 器 能 够 更 容易 达到 烂 界 限 ， 且 对 非 平稳 信号 更 有 效 , 但 它们 的 实现 也 更 
复杂 。 

限 失真 编码 是 以 损失 部 分 信 源 信息 为 代价 来 换取 高 压缩 比 的 。 限 失真 编码 主要 包括 预测 纺 
码 、 变 换 编 码 等 方法 。 

预测 的 目的 是 要 减少 待 编码 样 点 之 间 的 相关 性 ， 以 便 可 以 有 效 地 应 用 标量 量化 。 预 测 编码 
的 关键 是 预测 器 的 设计 ， 预 测 器 应 该 设计 成 使 预测 误差 最 小 。 为 了 避免 编码 右 中 用 于 预测 的 参 
考 样 点 与 解码 器 中 所 用 的 参考 样 点 之 间 的 失 配 ， 需 要 闭环 预测 ; 在 闭环 预测 中 编码 器 必须 重复 
与 解码 器 相同 的 操作 。 对 于 视频 编码 ， 预 测 可 以 在 空间 域 和 时 间 域 进行 。 在 时 间 方 向 上 ， 考 虑 物 
体 运动 的 影响 需要 进行 运动 补偿 。 运 动 估计 和 运动 补偿 是 帧 间 预 测 编码 中 的 关键 技术 。 

变换 编码 不 是 直接 对 空域 图 像 信号 编码 ， 而 是 首先 将 图 像 数 据 经 过 某 种 正 交 变换 变换 到 男 
一 个 正 交 矢 量 空间 ， 产 生 一 系列 变换 系数 ， 然 后 对 这 些 变换 系数 进行 编码 ， 从 而 达到 压缩 图 像 数 
据 的 目的 。 变 换 的 目的 是 去 除 原 始 样 点 的 相关 性 ， 并 把 能 量 集中 到 少数 几 个 变换 系数 上 ， 以 便 能 
有 效 地 运用 量化 进行 压缩 。 但 变换 本 身 并 不 压缩 数据 。 由 于 离散 余弦 变换 (DCT) 的 性 能 接近 于 
最 佳 变换 K-L， 而 计算 复杂 度 适中 ， 近 年 来 已 在 图 像 和 视频 编码 的 国际 标准 中 被 采用 。 如 JPEG、 
MPEG-1、MPEG-2、H. 261 等 压缩 编码 标准 ， 都 用 到 DCT 编码 进行 数据 压缩 。 






































































































































5.7 “习题 











1. 为 什么 要 对 图 像 数 据 进行 压缩 ? 其 压缩 原理 是 什么 ?图像 压缩 编码 的 目的 是 什么 ”目前 
有 哪些 编码 方法 ? 

2. 一 个 信 源 包含 6 个 符号 消息 ， 它 们 的 出 现 概 率 分 别 为 0.3、0.2、0.15、0.15、0.1、0. 1 ， 
请 对 该 信 源 进行 哈 夫 曼 编 码 ， 并 求 出 码 字 的 平均 长 度 和 编码 效率 。 

3. 设 有 一 个 信 源 具有 4 个 可 能 出 现 的 符号 X、X,、X，、X， 其 出 现 的 概率 分 别 为 1/2、1/4、 
1/8、1/8。 请 以 符号 序列 XX,X,X, 针 为 例 解释 其 算术 编码 和 解码 的 过 程 。 



































4. 请 比较 算术 编码 和 哈 夫 曼 编码 的 特点 ? 

5. 请 说 明 预 测 编码 的 原理 ， 并 画 出 DPCM 编 解码 器 的 原理 框图 。 

6. 预测 编码 是 无 损 编 码 还 是 有 损 编码 ? 为什么? 

7. DCT 本 身 能 不 能 压缩 数据 ? 为什么? 请 说 明 DCT 变换 编码 的 原理 。 

8. 目前 最 常用 的 运动 估计 技术 是 什么 ?其 假设 的 前 提 条 件 是 什么 ? 块 大 小 的 选择 与 运动 矢 
量 场 的 一 致 性 是 如 何 考 虑 的 ? 


第 5 章 |159 


第 6 草 ”数字 图 像 与 视频 压 织 编 码 标 准 


本 章 学 习 目 标 ; 

e。 掌握 JPEGC 基本 系统 的 编 解 码 原 理 。 

。 了解 JPEG2000 渐进 编码 与 传输 的 概念 与 思想 。 

。 理 解 MPEG-2、H. 264/AVC 标准 中 “类 ”和 “级 ”的 含义 。 

。 就 悉 H 264/AVC 标准 的 主要 特点 及 性 能 。 

。 了 解 H 265/HEVC 标准 的 主要 特点 及 性 能 。 

。 了 解 我 国 具备 自主 知识 产权 的 AVS 视频 编码 技术 的 性 能 及 应 用 。 


6.1 静止 图 像 编码 标准 



































静止 网 像 包括 两 类 : 黑白 〈 二 值 ) 静止 图 像 和 连续 色调 (彩色 或 灰 度 ) 静止 图 像 。 对 于 静止 





图 像 压 缩编 码 ， 已 有 多 个 国际 标准 ， 如 国际 标准 化 组 织 (International Standardization Organization ， 
ISO) 制定 的 JBIG 标准 (ISO 11544) 、JPEG 标准 (ISO 10918) 、JPEG2000 标准 (编号 为 ISO 15444 ， 
等 同 的 ITU-T 编号 为 T.800) 等 。 本 节 将 主要 介绍 JPEG 和 JPEG2000 标准 。 


6.1.1 JPEG 标准 概述 


JPEG 是 Joint Photographic Experts Group (联合 图 片 专家 组 ) 的 简称 。1991 年 3 月 ，JPEG 推 














出 了 静止 图 像 编 码 标 准 草案 ,编号 为 IO 10918，, 通常 称 为 JPEG 标准 。 新 的 JPEG 版 本 是 





























JPEG2000 (编号 为 ISO 15444， 等 同 的 ITU-T 编 号 为 T.800)， 于 2002 年 12 月 正式 颁布 。 
JPEG 是 一 个 适用 范围 很 广 的 静止 图 像 数据 压缩 标准 ， 既 可 用 于 灰 度 图 像 义 可 用 于 彩色 图 像 。 





电视 图 像 序列 的 帧 内 编码 ， 也 常 采 月 
系统 中 的 应 用 越 来 越 广泛 ， 用 JPEG 压缩 的 数字 图 像 文件 ， 作 为 一 种 数据 类 





























日 JPEG 压缩 标准 。 随 着 各 种 各 样 的 图 像 在 开放 网 络 化 计算 机 














文件 一 样 地 存储 和 传输 。 
JPEG 专家 组 开发 了 两 种 基本 的 压缩 算法 ， 一 种 是 采用 以 DCT 为 基础 的 有 失真 压缩 算法 ， 为 





一 种 是 采用 以 DPCM 预测 编码 技术 为 基础 的 无 失真 压缩 算法 。 使 
， 压 缩 后 还 原 得 到 的 网 像 与 原始 图 像 相 比较 ， 非 图 像 专家 难以 找 出 它们 之 间 的 


为 25 : 1 的 情况 下 














型 ， 如 同文 本 和 图 形 





用 有 失真 压缩 算法 时 ， 在 压缩 率 




















区 别 ， 因 此 得 到 了 广泛 的 应 用 。 
JPEG 算法 与 彩色 空间 无 关 ， 因 此 “RGB 到 YUV 变换 ”和 “YUV 到 RGB 变换 ”不 包含 在 


JPEG 算法 中 。JPEG 算法 处 理 的 彩色 图 像 是 单独 的 彩色 分 量 图 像 ， 因 此 它 可 以 压缩 来 自 不 同 彩色 

















空间 的 数据 ， 如 RGB 、YUV 和 CMY。 
JPEG 支持 两 种 图 像 建立 模式 : 顺序 (Sequential) 模式 和 渐进 (Progressive ) 


模式 一 次 完成 对 图 








然后 再 逐步 建立 图 


据 需 要 ， 当 清晰 度 满足 一 定 的 要 求 后 ,终止 图 


常 有 用 的 。 











像 的 编码 和 传输 ;渐进 模式 分 儿 次 完成 。 渐 进 模式 先 建 立 起 
像 的 细节 ， 在 接收 端 图 像 的 显示 分 辨 率 由 粗 到 细 ， 逐 步 通 近 ， 














JEPG 为 了 满足 各 种 需要 ， 定 义 了 以 下 4 种 编码 模式 。 
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模式 。 顺 序 
图 像 的 概貌 ， 
接收 者 可 根 








像 的 传输 。 这 一 功能 在 查阅 图 像 库 内 容 时 是 非 
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。 基于 DCT 的 顺序 编码 模式 。 

。 基于 DCT 的 渐进 编码 模式 。 

e 无 损 (Lossless) 编码 模式 。 

e 分 级 (Hierarchical ) 编码 模式 。 

可 见 ，JPEG 提供 了 多 种 工具 ， 以 适应 各 种 应 用 场合 。 为 此 ，JPEG 标准 定义 了 以 下 3 种 编码 
系统 。 

(1) 基本 编码 系统 

基本 编码 系统 采用 基于 DCT 的 顺序 编码 模式 ， 它 可 用 于 绝 大 多 数 压缩 应 用 场合 。 每 个 编 、 
解码 器 必须 实现 一 个 必 备 的 基本 系统 (也 称 为 基本 顺序 编码 器 ) 。 

(2) 扩展 编码 系统 

扩展 编码 系统 提供 不 同 的 选项 ， 即 除 基本 编码 系统 外 的 其 他 编码 模式 ， 如 渐进 编码 、 算 术 编 
码 、 无 损 编码 、 分 级 编码 等 。 用 于 高 压缩 率 、 高 精度 或 渐进 重建 的 应 用 场合 。 

(3) 无 损 编码 系统 

采用 完全 独立 于 DCT 过 程 的 简单 预测 方法 作为 无 损 编 码 模式 ， 但 从 数据 的 损失 来 看 ， 它 的 
无 损 模式 并 不 成 功 ， 因 此 一 般 流行 的 JPEG 都 不 实现 无 损 模式 。 为 此 ，IS0 提出 了 另 一 种 用 于 连 
续 色 调 网 像 无 损 压 缩 的 标准 ， 称 为 JPEG-LS。 

JPEG 的 最 新 标准 是 JPEG2000， 于 2002 年 12 月 正式 颁布 。 根 据 JPEG 专家 组 的 目标 ， 该 标 
准将 不 仅 能 提高 对 图 像 的 压缩 质量 ， 尤 其 是 低 码 率 时 的 压缩 质量 ， 而 且 还 将 得 到 许多 新 功能 ， 包 
括 根据 图 像 质量 ， 视 觉 感受 和 分 辨 率 进 行 渐进 传输 ， 对 码 流 的 随机 存 取 和 处 理 ， 开 放 结 构 ， 向 下 
兼容 等 。 


6.1.2 JPEG 基本 编码 系统 


最 简单 的 基于 DCT 的 编码 处 理 被 称 为 基本 的 顺序 (Baseline Sequential) 处 理 ， 它 提供 了 大 
部 分 应 用 所 需 的 性 能 ， 是 JPEG 算法 的 核心 内 容 。 具 有 这 种 能 力 的 编码 系统 称 为 JPEG 基本 系统 
(Baseline System ) 。 
JPEG 基本 编码 系统 的 编 解码 原理 框图 如 图 6-1 所 示 ， 此 处 表示 的 是 单个 图 像 分 量 ( 灰 度 图 
像 ) 压缩 的 情况 。 基 于 DCT 压缩 的 本 质 ， 是 针对 灰 度 图 像样 本 8 x8 的 子 块 数据 流 进行 的 。 对 于 






















































































基于 DCT 的 编码 器 


压缩 的 图 像 数据 流 









压缩 的 图 像 数 据 流 


全 IDCT | 





重建 图 像 数 据 





图 6-1 JPEG 基本 系统 的 编 解 码 原 理 框图 
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四 ) 数字 图 像 与 视频 处 理 





























彩色 图 像 ， 将 其 各 个 分 量 看 作 是 多 层 的 灰 度 图 像 进行 压缩 ， 可 以 一 个 分 量 一 个 分 量 地 处 理 ， 也 可 
以 按 8 x8 的 块 依次 交 蔡 进 行 。 


6.1.3 基于 DCT 的 渐进 编码 





基本 JPEG 的 编码 过 程 是 一 次 扫描 完成 的 。 渐 进 编码 方式 与 基本 方式 不 同 ， 每 个 图 像 分 量 的 
编码 要 经 过 多 次 扫描 才 完 成 。 第 一 次 扫描 编码 一 幅 粗 略 的 但 能 识别 其 轮廓 的 图 像 ， 这 幅 图 像 的 
编码 数据 能 以 相对 于 整个 传输 时 间 较 快 的 速度 传输 出 去 ， 接 收 端 收 到 后 可 以 重建 一 帧 质量 较 低 
的 可 识别 图 像 。 在 随后 的 扫描 中 再 对 图 像 做 较 精 细 的 压缩 ， 这 时 只 传送 增加 的 信息 ， 接 收 端 收 到 
额外 的 附加 信息 后 可 重建 一 幅 质 量 更 好 一 些 的 图 像 。 这 样 不 断 渐进 ， 直 至 获得 满意 的 图 像 为 止 ， 
如 图 6-2 所 示 。 








a) 第 1 次 扫描 ， 轮 廓 极 不 分 明 b) 第 2 次 扫描 ， 轮 廓 不 分 明 0) 第 3 次 扫描 ， 轮 廓 分 明 
图 6-2 渐进 编码 显示 


实现 渐进 编码 要 求 有 足够 的 缓冲 空间 存储 整个 图 像 中 已 量化 的 DCT 系数 ， 而 炉 编码 则 可 以 
传输 某 些 特 定 的 系数 。 

渐进 图 像 建立 模式 与 一 帧 分 多 次 扫描 方式 对 应 ，JPEG 标准 规定 了 两 种 模式 : 频谱 选择 
(Spectral Selection) 模式 和 逐次 通 近 (Successive Approach) 模式 。 

频谱 选择 模式 将 交流 系数 按 空 间 频 率 高 低 分 段 ， 从 低频 到 高 频 进 行 多 次 扫描 编码 传输 。 例 
如 ， 首 次 扫描 编码 的 是 0(0, 0)、Q(1, 0) 、0(0,，1) 三 个 经 量化 的 DCT 系数 ， 第 二 次 扫描 编 
码 的 是 0Q(0, 2)、Q(1, 1)、Q(2, 0) ，…， 以 此 类 推 。 这 种 方法 简单 易 行 ， 但 所 有 的 高 频 信息 
均 会 被 推迟 到 后 续 扫描 进行 ， 结 果 造 成 早期 接收 的 图 像 模 糊 不 清 。 

逐次 台 近 模式 则 每 次 扫描 对 所 有 频率 的 DCT 系数 都 进行 编码 ， 但 先 传输 每 个 DCT 系数 的 最 
高 有 效 位 ， 后 传输 次 高 位 、 低 位 ， 这 样 随 着 DCT 系数 精度 的 提高 ， 失 真 逐 渐 减 小 ， 图 像 质量 不 
断 提 高 。 从 量化 器 的 角度 来 看 ， 逐 次 逼近 模式 实质 上 就 是 将 量化 间隔 ( 步 长 ) 不断 减 小 。 


6.1.4 分 级 编码 


人 们 有 时 候 会 用 低 分 辨 率 设备 浏览 一 幅 高 分 辨 率 图 像 。 在 这 种 情 
况 下 ， 就 不 必 为 高 分 辩 率 的 图 像 传输 全 部 DCT 系数 。JPEG 标准 利用 
分 级 编码 模式 来 解决 这 个 问题 。 其 思路 是 : 将 一 幅 原始 图 像 的 空间 分 
辨 率 ， 在 水 平方 向 和 垂直 方向 上 分 成 多 级 分 辩 率 进行 编码 ， 相 邻 两 级 
的 分 辨 率 相差 为 2 的 倍数 。 这 种 方式 又 称 为 金字 塔 〈Pyramid) 编码 
方法 ， 如 图 6-3 所 示 。 

分 级 编码 的 编码 步 又 可 概括 如 下 。 

QD 对 输入 的 原始 图 像 信号 进行 滤波 ， 再 以 设 定 的 2 的 倍数 为 因 
子 对 滤波 结果 进行 “下 采样 ” ， 降 低 原始 图 像 的 空间 分 辩 率 。 图 6-3 分 级 编码 示意 图 
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G@) 对 已 降低 分 辨 率 的 “小 ”图 像 进行 压缩 编码 。 

@) 解码 重建 低 分 辩 率 图 像 ， 再 对 其 使 用 插值 滤波 器 内 插 成 原 图 像 的 空间 分 辩 率 。 

( 把 相同 空间 分 辨 率 的 插值 图 像 作为 原始 图 像 的 预测 值 ， 对 二 者 的 差 值 继续 压缩 编码 。 

@) 重复 步骤 B)、(4， 直 到 要 编码 图 像 达到 完整 的 分 辨 率 。 

分 级 编码 也 可 以 作为 渐进 传输 的 一 种 方式 。 此 时 的 “渐进 ”体现 在 空间 分 辨 率 上 ， 而 不 是 
重建 图 像 的 质量 上 。 在 低 码 率 情况 下 ， 分 级 编码 模式 的 性 能 优 于 其 他 编码 模式 。 


6.1.5 JPEG2000 标准 概述 


JPEG 静止 图 像 压缩 标准 在 中 、 高 比特 率 上 有 较 好 的 压缩 效果 ， 但 是 ， 在 低 比特 率 情 况 下 ， 
重建 图 像 存 在 严重 的 方块 效应 ， 不 能 很 好 地 适应 网 络 图 像 传输 的 需求 。 虽 然 JPEG 标准 有 4 种 操 
作 模 式 ， 但 是 大 部 分 模式 是 针对 不 同 的 应 用 提出 的 ,不 具有 通用 性 ， 这 给 交换 、 传 输 压 缩 图 像 带 
来 很 大 的 麻烦 。 此 外 ，JPEG 不 能 在 同一 个 压缩 码 流 中 同时 提供 很 好 的 有 失真 压缩 和 无 失真 压缩 ; 
不 文 持 大 于 64000 x 64000 的 图 像 ; 没有 统一 的 解码 结构 ; 抵抗 误 码 的 性 能 不 够 强 ; 不 擅长 对 计 
算 机 合成 图 像 的 编码 ; 混合 文档 压缩 性 能 不 佳 等 。 

针对 这 些 不 足 ，1996 年 的 瑞士 日 内 瓦 会 议 上 提出 制定 新 一 代 的 JPEG 格式 标准 ， 并 计划 在 
2000 年 正式 颁布 ， 因 此 将 它 称 为 JPEG2000。2000 年 12 月 ，JPEG2000 第 一 部 分 正式 公布 ， 标 准 
号 为 ISO/ 正 C15444 或 ITU-TT 800， 而 其 余部 分 则 在 之 后 被 陆续 公布 。 它 的 目标 是 在 一 个 统一 的 
集成 系统 中 ， 可 以 使 用 不 同 的 成 像 模 型 (客户 机 /服务 需 、 实 时 传送 、 图 像 图 书馆 检索 、 有 限 组 
存 和 宽带 资源 等 ) ， 对 不 同类 型 (二 值 图 像 、 灰 度 图 像 、 彩 色 图 像 、 多 分 量 图 像 等 ) 、 不 同性 
质 (自然 图 像 、 计 算 机 图 像 、 医 学 图 像 、 遥 感 图 像 、 混 合 文本 等 ) 的 静止 图 像 进 行 压缩 。 该 
压缩 编码 系统 在 保证 失真 率 和 主观 图 像 质量 优 于 现 有 标准 的 条 件 下 ， 能 够 提供 对 图 像 的 低 比 
特 率 压缩 。 


6.1.6 JPEG2000 标准 的 基本 框架 


为 了 达到 高 压缩 率 的 目的 ，JPEG2000 也 采用 了 传统 的 基于 “变换 + 量化 + 炉 编 码 ” 的 编码 
模式 ，JPEG2000 的 编 解码 器 原理 框图 如 图 6-4 所 示 。 

在 编码 时 ， 首 先 对 原 图 像 进 
行 预 处 理 ， 包 括 DC 电 平 位 移 和 图 量 
分 量变 换 ， 然 后 对 处 理 的 结果 进 
行 离散 小 波 变换 ( Discrete Wave- 
let Transform，DWT)， 得 到 小 波 
系数 。 再 对 小 波 系数 进行 量化 和 
颂 编码 ， 最 后 组 成 标准 的 输出 码 
流 。JPEG2000 与 传统 JPEG 最 大 
的 不 同 之 处 在 于 : 它 放 弃 了 
JPEG 所 采用 的 以 离散 余弦 变换 
为 主 的 区 块 编码 方式 ， 而 采用 以 
离散 小 波 变换 为 主 的 多 分 辩 率 编 
码 方 式 ; 炉 编 码 采 用 由 位 平面 编 




























































































































































































b) 解码 器 
图 6-4 JPEG2000 的 编 解 码 器 原理 框图 


码 和 二 进 制 算术 编码 器 组 成 的 优化 截断 般 入 式 块 编码 (Embedded Block Coding with Optimized 




















Truncation，EBCOT) 。 正 是 由 于 采用 了 这 两 个 核心 算法 ，JPEG2000 才 拥 有 比 JPEG 更 为 优良 的 
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性 能 。 与 此 同时 ， 小 波 变换 和 精 编 码 实 现 的 计算 量 和 复杂 度 都 非常 高 ， 是 JPEG2000 编码 系统 
中 最 主要 的 两 个 部 分 。 


6.1.7 JPEG2000 的 主要 特点 


JPEG2000 图 像 编码 系统 相 比 于 基于 DCT 的 JPEG 具有 以 下 特点 。 

(1) 良好 的 低 比 特 率 压缩 性 能 

这 是 JPEG2000 标准 最 主要 的 特征 。JPEG 标准 对 于 细节 分 量 多 的 灰 度 图 像 ， 当 比特 率 低 于 
0. 25bit/p (bit per pixel) 时 ,视觉 失真 大 。JPEG2000 格式 的 图 像 压缩 率 可 在 JPEG 标准 的 基础 上 
再 提高 10% ~30% ， 而 且 压 缩 后 的 图 像 显 得 更 加 细腻 平滑 。 尤 其 在 低 比 特 码 率 下 ， 具 有 和 良好 的 
率 失真 性 能 ， 以 适应 窄带 网 络 、 移 动 通信 等 带宽 有 限 的 应 用 需求 。 

(2) 连续 色调 图 像 压缩 和 二 值 图 像 压 缩 

JPEG2000 的 目标 是 成 为 一 个 标准 编码 系统 ， 既 能 压缩 连续 色调 自然 图 像 ， 又 能 压缩 二 值 图 
像 。 该 系统 对 于 每 一 个 彩色 分 量 使 用 不 同 的 动态 范围 (例如 ，1 ~ 16bit) 进行 压缩 和 解压 缩 。 该 
特性 将 应 用 在 以 下 网 像 : 包含 图 像 和 文本 的 混合 文档 、 有 注释 层 的 医学 图 像 、 带 有 二 值 或 近似 二 
值 区 域 或 Alpha 通道 的 图 形 或 计算 机 合成 图 像 或 传真 。 

(3) 同时 支持 无 损 压 缩 和 有 损 压缩 

JPEG2000 提供 的 是 舱 入 式 码 流 ， 允 许 从 有 损 到 无 损 的 渐进 解压 。 在 接收 端 解 码 时 ， 根 据 实 
际 要 求 ， 解 码 出 所 要 求 的 图 像 质量 。 采 用 此 特性 的 应 用 实例 有 : 有 时 也 需要 无 失真 压缩 的 医学 图 
像 ， 保 存 时 需要 高 质量 而 预览 时 并 不 需要 高 质量 的 图 像 存 档 ， 为 不 同 硬件 设备 提供 不 同性 能 的 
网 络 应 用 等 。 

(4) 渐进 传输 

所 谓 的 渐进 传输 (Progressive Transmission) 就 是 先 传输 图 像 轮廓 数据 ， 然 后 再 逐步 传输 其 他 
数据 来 不 断 提 高 图 像 质量 ， 也 就 是 不 断 地 向 图 像 中 插入 像素 以 不 断 提高 图 像 的 空间 分 辩 率 或 增 
加 像素 精度 (位 深度 ) ， 让 图 像 由 腾 胱 到 清晰 显示 。 用 户 根据 需要 ， 对 图 像 传 输 进 行 控 制 ， 在 获 
得 所 需 的 图 像 分 辨 率 或 质量 要 求 后 ， 在 不 必 接 收 和 解码 整个 图 像 的 压缩 码 流 的 情况 下 ， 便 可 终 
止 解 码 。 这 个 特性 在 有 限 带宽 的 网 络 上 进行 浏览 表现 得 尤为 突出 。 例 如 ， 当 下 载 一 个 图 像 时 ， 只 
看 到 网 像 的 轮廓 或 缩 略图 (Thumbnail) ， 就 可 以 决定 是 否 需 要 下 载 它 了 。 而 且 ， 在 决定 下 载 的 情 
况 下 ， 也 可 以 根据 需要 和 带宽 ， 决 定 下 载 的 图 像 质量 ， 从 而 控制 数据 量 的 大 小 。 

(5) 支持 “ 感 兴趣 区 域 ”压缩 以 及 对 码 流 的 随机 访问 和 随机 处 理 

JPEG2000 的 另 一 个 极其 重要 的 优点 是 支持 对 感 兴趣 区 域 (Region of Interest，RoI) 的 压缩 。 
在 对 这 些 区域 进 行 压缩 时 ， 可 以 指定 特定 的 压缩 质量 ,或 在 恢复 时 指定 某 些 区 域 的 解压 缩 要 求 。 
这 是 因为 小 波 在 空间 和 频率 域 上 具有 局 域 性 ( 即 一 个 变换 系数 涉及 的 图 像 空 间 范围 是 局 部 的 )， 
要 完全 恢复 图 像 中 的 某 个 局 部 ， 并 不 需要 所 有 编码 都 被 精确 保留 ， 只 要 对 应 它 的 一 部 分 编码 没 
有 误差 就 可 以 了 。 这 给 用 户 带 来 了 极 大 的 方便 。 例 如 ,在 有 些 情 况 下 ， 图 像 中 只 有 一 小 块 区 
域 对 用 户 是 有 用 的 。 那 么 将 它 定义 成 一 个 感 兴趣 的 区 域 , 采用 低压 缩 率 以 获取 较 好 的 图 像 质 
量 ， 而 对 其 他 部 分 采用 高 压缩 率 以 节省 存储 空间 。 这 样 就 能 在 保证 不 丢失 重要 信息 的 同时 又 
有 效 压 缩 了 数据 量 ， 实 现 了 真正 的 “交互 式 ” 压 缩 ， 而 不 仅仅 是 像 原 来 那样 只 能 对 整个 图 片 
定义 一 个 压缩 率 。 在 传输 中 可 以 对 Rol 部 分 进行 随机 处 理 ， 即 在 不 解压 的 前 提 下 对 压缩 码 流 
进行 平移 、 旋 转 、 缩 放 等 常见 操作 ， 而 其 余 码 流 仍 处 于 压缩 状态 。 

(6) 固定 比特 率 、 固 定 尺 寸 ， 有 限 的 工作 存储 器 

国定 比特 率 (固定 局 部 比特 率 ) 意味 着 对 于 给 定数 目的 相 邻 像素 ， 其 编码 后 的 比特 数 等 于 
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(或 小 于 ) 固定 值 ， 这 样 解码 右 就 可 以 通过 有 限 带宽 的 通道 实时 解码 。 固 定 尺 寸 ( 固定 全 局 比特 
率 ) 意味 着 整 幅 图 像 编码 后 的 总 比特 数 是 一 个 固定 值 ， 这 样 对 于 存储 空间 有 限 的 硬件 设备 就 可 
容纳 完整 的 编码 流 。 

(7) 良好 的 抗 误 码 性 

在 传输 图 像 时 ，JPEG2000 系统 采取 一 定 的 编码 措施 和 码 流 格式 来 减少 因 解 码 失败 而 造成 的 
图 像 失 真 。 这 一 点 在 无 线 信 道上 传输 图 像 时 更 为 重要 。 在 决定 图 像 解压 质量 时 ， 某 一 部 分 码 流 比 
其 他 码 流 更 加 重要 ,合适 的 码 流 设计 能 帮助 减少 解码 错误 。 

(8) 开放 的 体系 结构 

开放 的 体系 结构 可 以 为 不 同 的 图 像 类 型 和 应 用 提供 最 优化 的 系统 。 通 过 语法 描述 语言 集成 或 开 
发 新 的 压缩 工具 ， 优 化 整个 编 解 码 系统 。 对 于 未 知 压缩 工具 ， 解 码 避 可 以 要 求 从 源 端 发 过 来 。 

JPEG2000 的 改进 还 包括 : 顺序 扫描 重建 能 力 (用 于 实时 编码 ) ; 与 JPEG 的 兼容 性 ; 基于 内 
容 的 描述 ; 增加 附加 通道 空间 信息 (Side Channel Spatial Information ) ; 与 ITU-T 图 像 交 换 建 议 相 
兼容 ; 灵活 的 元 数据 格式 ; 考虑 人 的 视觉 特性 ， 增 加 视觉 权重 和 掩 膜 ， 在 不 损害 视觉 效果 的 情况 
下 大 大 提高 压缩 效率 ; 可 以 为 一 个 图 像 文 件 加 上 加 密 的 版权 信息 ， 这 种 经 过 加 密 的 版 权 信息 在 
图 像 编 辑 的 过 程 (放大 、 复 制 ) 中 没有 损失 ， 比 目前 的 “水 印 ” 技 术 更 为 先进 ; JPEG2000 对 
CMY 、RGB 等 多 种 彩色 空间 都 有 很 好 的 兼容 性 ， 这 为 用 户 按照 自己 的 需求 在 不 同 显示 器 、 打 印 
机 等 外 设 进行 色彩 管理 带 来 了 便利 。 

总 之 ， 和 JPEG 相 比 JPEG2000 优势 明显 ， 且 向 下 兼容 ， 将 会 在 各 种 应 用 中 大 放 有 异彩 ， 为 人 
们 的 生活 带 来 更 多 的 方便 和 快捷 。 


6.2 ”数字 视频 编码 标准 概述 


为 了 保证 不 同 厂 家 音 视 频 编 解码 产品 之 间 的 互 操作 性 ， 国 际 电信 联盟 (ITU) 、 国 际 标 准 化 
组 织 (ISO) 和 国际 电工 委员 会 (International Electrotechnical Commission ，IEC) 等 组 织 制定 了 一 
系列 的 音 视 频 编 解码 标准 。 其 中 最 具 代 表 性 的 是 ITU-T 推出 的 H. 26x 系列 视频 编码 标准 ， 包 括 
H.261、H. 262、H. 263、H.264 和 瓦 265 ， 主 要 应 用 于 实时 视频 通信 和 领域 ， 如 会 议 电 视 、 可 视 电 
话 等 ; ISO/ 正 C 推出 的 MPEG-x 系列 音 视频 压缩 编码 标准 ， 包 括 MPEG-1、MPEG-2 和 MPEG-4 等 ， 
主要 应 用 于 音 视频 存储 (如 VCD、DVD)、 数 字音 视频 广播 、 因 特 网 或 无 线 网 上 的 流 媒 体 等 。 

为 了 摆脱 我 国 多 媒体 产品 开发 和 生产 企业 受制 于 国外 编码 标准 的 现状 ， 我 国 于 2002 年 6 月 
21 日 成 立 了 数字 音 视频 编 解码 技术 标准 工作 组 ， 英 文 名 称 为 “Audio Video Coding Standard Work- 
group of China”， 简 称 AVS 工作 组 。 该 工作 组 的 任务 是 : “面向 我 国 的 信息 产业 需求 ， 联 合 国内 
企业 和 科研 机 构 ， 制 ( 修 ) 订 数 字音 视频 的 压缩 、 解 压缩 、 处 理 和 表示 等 共性 技术 标准 ， 为 数 
字音 视频 设备 与 系统 提供 高 效 经 济 的 编 解 码 技术 ， 服 务 于 高 分 辩 率 数字 广播 、 高 密度 激光 数字 
存储 媒体 、 无 线 宽带 多 媒体 通信 、 互 联网 宽带 流 媒 体 等 重大 信息 产业 应 用 。” 

2006 年 2 月 ， 国 家 标准 化 管理 委员 会 正式 颁布 《信息 技术 先进 音 视频 编码 第 2 部 分 : 视 
频 》 (国家 标准 号 GB/T 20090. 2 一 2006， 简称 AVS 标准 )。2006 年 3 月 1 日 ，AVS 标准 正式 实 
施 。 作 为 解决 音 视 频 编 码 压缩 的 信 源 标准 ，AVS 标准 的 基础 性 和 自主 性 使 得 它 成 为 推动 我 国 数 
字音 视频 产业 “由 大 变 强 ”的 重要 里 程 碑 。 从 2012 年 9 月 开始 ，AVS 工作 组 的 工作 全 面 转向 第 
二 代 标 准 ， 即 《信息 技术 高 效 多 媒体 编码 》( AVS2) 标准 的 制定 。 

这 些 标 准 已 在 数字 电视 、 多 媒体 通信 和 领域 得 到 广泛 应 用 ， 极 大 地 推动 了 数字 电视 技术 及 多 
媒体 技术 的 发 展 。 
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6.2.1 H.26x 系列 标准 


1. H.261 

H. 261 是 国际 电报 电话 咨询 委员 会 (CCITT， 现 改称 为 ITU-T) 制定 的 国际 上 第 一 个 视频 编 
码 标准 ， 主 要 用 于 在 综合 业务 数字 网 (Integrated Services Digital Network ，ISDN) 上 开展 双向 视听 
业务 (如 可 视 电 话 、 会 议 电 视 )。 该 标准 于 1990 年 12 月 获得 批准 。H. 261 标准 的 名 称 为 “数码 
率 为 px64kbit/s (p=1，2,，…，30) 视听 业务 的 视频 编 解 码 ”， 简 称 为 p x 64kbit/s 标准 。 当 p 
=1、2 时 ， 仅 支持 QCIF (Quarter Common Intermediate Format ， 四 分 之 一 通用 中 间 格 式 ) 的 图 像 
分 辨 力 (176 x144) ， 用 于 帧 频 低 的 可 视 电 话 ; 当 p 三 6 时 ， 可 文 持 通用 中 间 格 式 ( Common Inter- 
mediate Format，CIF) 的 图 像 分 辨 力 (352 x288) 的 会 议 电 视 。 利 用 CIF 格式 ， 可 以 使 各 国 使 用 
的 不 同 制式 的 电视 信号 变换 为 通用 中 间 格 式 ， 然 后 输入 给 编码 器 ， 从 而 使 编码 器 本 身 不 必 知 道 
信号 是 来 自 哪 种 制式 的 。 

H. 261 视频 编码 算法 的 核心 是 采用 带 有 运动 补偿 的 预测 编码 以 及 基于 DCT 的 变换 编码 相 结合 的 
混合 编码 方法 ， 其 许多 技术 (包括 视频 数据 格式 、 运 动 估 计 与 补偿 、DCT、 量 化 和 炉 编 码 ) 都 被 后 
来 的 MPEG-1、MPEG-2、H. 263 、H. 264 等 其 他 视频 编码 标准 所 借鉴 和 采用 。 

2. H. 262 

H. 262 实际 上 就 是 MPEG-2 标准 的 视频 部 分 (ISO/IEC13818-2)。ITU-T 的 视频 编码 专家 组 
(Video Coding Experts Group，VCEG) 与 ISO/IEC 的 运动 图 像 专家 组 ( Motion Picture Experts 
Group，MPEG) 在 ISOZIEC13818 标准 的 第 一 和 第 二 两 个 部 分 进行 了 合作 ， 因 此 上 述 两 个 部 分 也 
称 为 ITU-T 的 标准 ， 分 别 为 ITU-T H. 220 系统 标准 和 ITU-T H. 262 视频 标准 。 

3. H.263/ H. 263 +/ H.263 ++ 

由 于 H. 261 的 视频 质量 在 低 数码 率 的 情况 下 仍然 难以 令 人 满意 ， 因 此 ITU-T 在 H.261 的 基 
础 上 做 了 一 些 重 要 的 改进 ， 于 1996 年 推出 了 针对 其 低 数码 率 的 视频 压缩 编码 标准 H. 263。H. 263 
最 初 是 针对 数码 率 低 于 64bit/s 的 应 用 设计 的 ， 但 实验 结果 表明 ， 在 较 大 的 数码 率 范围 内 ， 都 取 
得 了 良好 的 压缩 效果 。 

H. 263 支持 的 输入 图 像 格 式 可 以 是 QCIF、CIF、Sub-QCIF (128 x96 像素 ) 、4CIF 或 者 16CIF 
的 彩色 4 : 2 : 0 亚 采 样 图 像 。 其 中 QCIF 和 CIF 是 H. 261 所 支持 的 格式 ，Sub- QCIF 格式 大 约 只 能 
达到 QCIF 一 半 的 分 辩 率 ， 而 4CEF 和 16CIF 图 像 格 式 的 分 辩 率 分 别 为 CIF 的 4 倍 和 16 倍 。 对 
4CIF 和 16 CIF 格式 的 支持 意味 着 H. 263 也 能 实现 高 数码 率 的 视频 编码 。H. 263 与 H. 261 相 比 采 
用 了 半 像 素 精度 的 运动 补偿 ， 并 增加 了 无 限制 的 运动 矢量 模式 、 基 于 句法 的 算术 编码 模式 、 先 进 
的 预测 模式 、PB- 帧 模式 等 4 种 有 效 的 压缩 编码 模式 作为 选项 。 

1998 年 ，ITU-T 推出 的 H.263 + 是 H.263 视频 编码 标准 的 第 二 个 版 本 ， 它 在 保证 原 H. 263 标 
准 核心 句法 和 语义 不 变 的 基础 上 ， 增 加 了 若干 选项 以 提高 压缩 效率 或 改善 某 方面 的 功能 。 为 提 
高 压缩 效率 ，H. 263 + 采用 先进 的 帧 内 编码 模式 ; 增强 的 PB- 帧 模式 改进 了 H 263 的 不 足 ， 增 强 
了 帧 间 预 测 的 效果 ; 去 块 效应 滤波 器 不 仅 提高 了 压缩 效率 ， 而 且 提 供 重建 图 像 的 主观 质量 。 为 适 
应 网 络 传输 ，H. 263 + 增加 了 时 间 可 分 级 编码 、 信 噪 比 可 分 级 编码 、 空 间 可 分 级 编码 以 及 参考 帧 
选择 模式 ， 增 强 了 视频 传输 的 抗 误 码 能 

2000 年 ，ITU-T 又 推出 H.263 ++ ， 在 H263 + 基础 上 做 了 一 些 新 的 扩展 ， 增 加 了 一 些 新 的 可 
选 技术 ， 从 而 更 加 适应 于 各 种 网 络 环境 ， 并 增强 了 差错 恢复 的 能 力 。 新 增 的 可 选 模式 有 增强 参考 
帧 选择 模式 、 数 据 划分 片 模式 、 扩 展 的 追加 增强 信息 模式 等 。 

4. H.264/AVC 

H. 264 是 由 ITU-T 的 视频 编码 专家 组 (VCEG) 与 ISOZIEC 的 MPEG 组 成 的 联合 视频 工作 组 
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(JVT) 共同 制定 的 新 一 代 视 频 压 缩编 码 标准 ， 面 向 多 种 实时 视频 通信 应 用 。 事 实 上 ，H. 264 标 
准 的 开展 可 以 追溯 到 199%6 年 ， 在 制定 H. 263 标准 后 ，VCEG 启动 了 两 项 研究 计划 : 一 个 是 短期 
研究 计划 ， 在 H. 263 的 基础 上 增加 选项 来 改进 编码 效率 ， 随 后 产生 了 H. 263 + 与 H.263 ++ ; 另 
一 个 是 长 期 研究 计划 ， 旨 在 开发 新 的 压缩 标准 ， 其 目标 是 编码 效率 要 高 ， 同 时 具有 简单 、 直 观 的 
视频 编码 技术 ， 网 络 友 好 的 视频 描述 ， 适 合 交 互 和 非 交 互 式 应 用 (广播 、 存 储 、 流 媒体 ) 。 长 期 
研究 计划 产生 了 H. 26L 标准 草案 ， 在 压缩 效率 方面 与 先期 的 ITU-T 视频 压缩 标准 相 比 ， 具 有 明 
显 的 优越 性 。2001 年 ，ISOX 正 C 的 MPEG 组 织 认识 到 H. 26L 潜在 的 优势 ， 随 后 与 ITU-T 的 VCEG 
共同 组 建 了 联合 视频 工作 组 (JVT) ， 其 主要 任务 就 是 将 H. 26L 草案 发 展 为 一 个 国际 性 标准 。 于 
是 ,在 ISOZIEC 中 该 标准 命名 为 AVC (Advanced Video Coding， 高 级 视频 编码 ) ， 作 为 MPEG-4 标 
准 的 第 10 部 分 ; 在 ITU-T 中 正式 命名 为 H. 264 标准 。 

5. H. 265/HEVC 

高 效 视频 编码 ( High Efficiency Video Coding，HEVC) 是 继 H. 264/AVC 后 的 下 一 代 视 频 编码 
标准 ， 由 ISOAIEC MPEG 和 ITU-T VCEG 共同 组 成 的 视频 编码 联合 协作 小 组 (Joint Collaborative 
Team on Video Coding，JCT-VC) 负责 开发 及 制定 。 

随 着 数字 媒体 技术 和 应 用 的 不 断 演进 ， 视 频 应 用 不 断 向 高 清晰 度 方向 发 展 ， 数字 视频 格式 
从 720P 向 1080P 全 面 升级 ， 在 一 些 视频 应 用 领域 甚至 出 现 了 3840 x2160(4K x2K) 、7680 x4320 
(8K x4K) 的 图 像 分 辩 率 ; 视频 帧 率 从 30 frame/s 向 60 frame/s、120 frame/s 甚至 240 frame/s 的 
应 用 场景 升级 。 当 前 主流 的 视频 压缩 标准 H. 264/AVC 的 压缩 效率 的 局 限 性 在 不 断 地 凸显 。 在 
ISOZIEC MPEG 和 ITU-T 视频 编码 专家 组 (VCEG) 的 共同 努力 下 ， 面 向 更 高 清晰 度 、 更 高 帧 率 、 
更 高 压缩 率 视频 应 用 的 新 一 代 国 际 视频 压缩 标准 H. 265/HEVC 标准 已 经 发 布 ， 压 缩 效 率 比 
H. 264/AVC 提高 了 一 倍 。 但 是 ， 该 标准 的 算法 复杂 度 极 高 ， 而 且 编 码 的 算法 复杂 度 是 解码 复杂 
度 的 数 倍 以 上 ， 这 对 满足 实际 的 应 用 是 个 极 大 的 挑战 。 

早 在 2004 年 ，ITU-T VCEG 开始 研究 新 技术 以 创建 一 个 新 的 高 效 的 视频 压缩 标准 。2004 年 
10 月 ，H. 264/AVC 小 组 对 有 潜力 的 各 种 编 解码 技术 进行 了 调研 。 在 2005 年 1 月 的 VCEG 会 议 
上 ， 指 定 了 作为 未 来 探索 方向 的 若干 主题 ， 即 关键 技术 领域 (Key Technical Areas，KTA) ， 同 时 
在 原 有 JVT 开发 的 H. 264/AVC 标准 参考 软件 JM 上 集成 了 被 提出 的 技术 ， 作 为 KTA 参考 软件 供 
之 后 4 年 的 实验 评估 和 验证 。 关 于 改进 压缩 技术 的 标准 化 也 有 两 种 途径 ， 即 制定 新 的 标准 及 制定 
H. 264/AVC 标准 的 扩展 标准 ， 在 2009 年 4 月 的 VCEG 会 议 上 进行 了 讨论 ， 暂 定名 称 为 H. 265 和 
H. NGVC (Next-generation Video Coding ) 。 

2007 年 ISOAIEC MPEG 开始 了 类 似 的 项 目 ， 名 称 暂 定 为 高 性 能 视频 编码 ( High- performance 
Video Coding，HVC) ， 其 早期 的 评估 也 是 建立 在 对 于 KTA 参考 软件 的 修改 上 。 在 2009 年 7 月， 
实验 结果 显示 ， 与 H. 264/AVC High Profile 相 比 HVC 可 以 降低 平均 20% 左右 的 码 率 。 这 些 结果 
也 促成 了 MPEG 开始 与 VCEG 合作 共同 启动 制定 新 一 代 的 视频 编码 标准 。 

VCEG 和 MPEG 在 2010 年 1 月 正式 联合 征集 提案 ， 并 在 2010 年 4 月 JCT-VC 的 首次 会 议 上 对 
于 收 到 的 27 份 提案 进行 了 评估 ， 同 时 JCT- VC 也 确定 该 联合 项 目的 名 称 为 高 效 视频 编码 
(HEVC) 。 在 2010 年 7 月 及 10 月 的 会 议 中 JCT-VC 确定 了 HEVC 测试 模型 (HEVC Test Model) 
及 待 审议 测试 模型 (Test Model under Consideration) 。 此 后 举行 了 多 次 JCT 会 议 ， 对 HEVC 的 技术 
内 容 进行 不 断 改 进 、 增 删 和 完善 。2013 年 1 月 完成 HEVC 的 最 终 草案 (Final Draft) 版 ， 正 式 成 
为 国际 标准 。HEVC 公布 后 在 ITU-T 和 ISOZIEC 这 两 个 组 织 中 分 别 命 名 为 ITU-T H. 265 和 MPEG- 
H Part 2 (ISO/IEC 23008-2) 。 

HEVC 的 核心 目标 是 在 H. 264/AVC High Profile 基础 上 ， 压 缩 效 率 提高 一 倍 ， 即 在 保证 相 
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同 视频 图 像 质 量 的 前 提 下 ， 适 当 增 加 编码 端的 复杂 度 而 使 视频 流 的 码 率 减 少 50% ; 此 外 ， 还 
要 在 噪声 强度 、 全 色 度 和 动态 范围 情况 下 提升 视频 质量 。 根 据 不 同 应 用 场合 的 需求 ，HEVC 编 
码 器 可 以 在 压缩 率 、 运 算 复杂 度 、 抗 误 码 性 以 及 编 解码 延迟 等 性 能 方面 进行 取舍 和 折 中 。 相 
对 于 H. 264/AVC，HEVC 具有 两 大 改进 ， 即 支持 更 高 分 辨 紊 的 视频 以 及 改进 的 并 行 处 理 模 式 。 
HEVC 的 应 用 定位 于 下 一 代 的 高 清 电视 (HDTV) 显示 和 摄像 系统 ， 能 够 支持 更 高 的 扫描 帧 率 以 
及 达到 1080p(1920 x1080) 乃至 Ulta HDTV(7680 x 4320) 的 显示 分 辨 率 ， 可 应 用 于 家 庭 影院 、 
数字 电影 、 视 频 监 控 、 广 播 电 视 、 网 络 视频 、 视 频 会 议 、 移 动 流 媒体 、 远 程 呈现 (Telepres- 
ence) 、 远 程 医疗 等 领域 。 将 来 还 可 用 于 3D 视频、 多 视点 视频 、 可 分 级 视频 等 。 可 以 预计 ， 
HEVC 的 正式 颁布 ， 将 给 视频 应 用 带 来 不 可 估量 的 影响 。 


6.2.2 MPEG-x 系列 标准 


MPEG 是 ISO 和 IEC 联合 技术 委员 会 1 (JTC1) 的 第 29 分 委员 会 (SC29) 的 第 11 工作 组 
(WG11)， 自 从 1988 年 成 立 以 来 ， 制 定 了 MPEG-x 系列 国际 标准 ， 对 推动 音 视 频 编 解码 技术 的 发 
展 做 出 了 重要 的 贡献 。 

1. MPEG-1 标准 

MPEG-1 标准 于 1992 年 11 月 获得 正式 批准 ， 是 ISOZIEC 的 第 一 个 数字 音 视频 编码 标准 ， 其 
标准 名 称 是 Coding of moving pictures and associated audio for digital storage media at up to about 
1. 5Mbit/s (针对 1.5Mbit/s 以 下 数据 传输 率 的 数字 存储 媒体 应 用 的 运动 图 像 及 其 伴音 编码 ) ， 标 
准 号 为 ISO/IEC 11172。 

该 标准 主要 是 针对 当时 出 现 的 新 型 存储 媒介 CD-ROM、VCD 等 应 用 而 制定 的 ， 在 影视 和 多 
媒体 计算 机 领域 中 得 到 了 广泛 应 用 。MPEG-1 视频 编码 标准 (ISOZIEC 11172-2) 的 主要 目标 是 在 
1 ~1.5Mbit/s 数码 率 的 情况 下 ， 提 供 30frame/s 标准 输入 格式 (Standard Input Format，SIF)、 相 
当 于 家 用 录像 机 (Video Home System，VHS) 画面 质量 的 视频 。 

2. MPEG-2 标准 

MPEG-2 标准 于 1994 年 11 月 正式 发 布 ， 其 标准 名 称 是 Generic coding of moving pictures and 
associated audio information (运动 图 像 及 其 伴音 信息 的 通用 编码 )， 标 准 号 ISO/IEC 13818。 

而 在 此 之 前 ，ITU-T 也 成 立 了 视频 编码 专家 组 (Video Coding Expert Group ，VCEG ) ， 开 始 制 
定 应 用 于 异步 传输 模式 ( Asynchronous Transfer Mode, ATM ) 环境 下 的 H. 262 标准。 由 于 性 能 指标 
基本 类 似 ，ITU-T 也 将 H. 262 标准 的 研究 工作 并 入 到 MPEG-2 标准 之 中 ， 从 而 使 得 MPEG-2 形成 
一 套 完 整 的 几乎 覆盖 当时 数字 音 视频 编码 技术 领域 的 标准 体系 。 

MPEG-2 标准 的 各 部 分 内 容 描述 如 下 : 

。 ISO/IEC13818-1: System (系统 )。 描 述 多 个 视频 、 音 频 基本 码 流 (Elementary Stream ， 
ES) 、 附 加 数据 合成 传送 人 码 流 (Transport Stream，TS) 和 节目 码 流 (Program Stream，PS) 的 方式 
和 实时 实现 同步 的 方法 。 

。 ISO/IEC13818-2: Video (视频 )。 描 述 视频 数据 的 编码 和 解码 。 

。 ISO/ 正 C13818-3: Audio (音频 )。 描 述 音 频数 据 的 编码 和 人 解码， 与 MPEG-1 音频 标准 后 向 
兼容 。 

。 ISOAIEC13818-4: Compliance (一 致 性 测试 ) 。 描 述 测试 一 个 编码 码 流 是 否 符合 MPEG-2 码 
流 的 方法 。 

e ISO/IEC13818-5: Software (软件 )。 描 述 了 MPEG-2 标准 的 第 一 、 二 、 三 部 分 的 软件 实现 
方法 。 
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。ISO/IEC13818-6: DSM- CC (数字 存储 媒体 一 命令 与 控制 ) 扩展 协议 。 描 述 交 互 式 多 媒体 
网 络 中 服务 器 与 用 户 间 的 会 话 信 令 集 。 

。ISO/IEC13818-7: MPEG-2 高 级 音频 编码 (Advanced Audio Coding，AAC) ， 是 多 声 道 声音 
编码 标准 。 

e。 ISO/IEC13818-8: 10bit 视频 。 

。 IJSO/IEC13818-9: 系统 解码 器 实时 接口 扩展 标准 ， 它 可 以 用 来 适应 来 自 网 络 的 传输 数 
据 流 。 

e ISO/IEC13818-10: DSM- CC 一致 性 测试 扩展 。 

。 ISOAIEC13818-11: 知识 产权 管理 和 保护 框架 。 

MPEG-2 标准 作为 MPEG-1 的 扩展 ， 需 要 支持 数字 电视 广播 ， 因 此 必须 能 够 处 理 电 视 系 统 特 
有 的 隔行 扫描 方式 ;其 次 ， 鉴 于 MPEG-2 标准 中 编码 技术 选择 性 增 大 ， 而 系统 应 用 模式 也 随 支 持 
视频 格式 的 增加 而 进一步 扩大 ，MPEG-2 标准 定义 了 6 种 不 同 复杂 度 的 压缩 编码 算法 ， 简 称 为 
“类 ”( Profile) ， 规 定 了 4 种 输入 视频 格式 ， 称 之 为 “级 ”(Level) 。“ 类 ”与 “级 ”的 组 合 方式 
将 MPEG-2 标准 中 不 同 算法 工具 和 不 同 的 系统 参数 取 值 进行 组 合 规范 ， 便 于 针对 不 同 应 用 系统 设 
计 相 应 的 标准 解码 系统 。MPEG-2 标准 中 “类 ”与 “级 ”的 可 能 组 合 如 表 6-1 所 示 。 


表 6-1 MPEG-2 标准 中 “类 ”与 “级 ”的 可 能 组 合 

























































































简单 类 主 类 4:2:2 类 SNR 可 分 级 类 空间 可 分 级 类 高 类 
高 级 
1920 x 1080 x 30, MP@ HL HP@ HL 
1920 x 1152 x 25 
1440- 高 级 
1440 x 1080 x 30, MP@ H1440 SSP@ H1440 HP@ H1440 
1440 x 1152 x 25 
主 乡 
720 x480 x30， SP@ ML MP@ ML 4:2:2P@ML SNRP@ ML HP@ ML 
720 x576 x25 
低级 
352 x 240 x 30, MP@ LL SNRP@ LL 
352 x288 x25 
有 B 帧 , 4:2:0 
有 B 帧 , 4:2:0| . 
无 B 帧 , 4:2:0| 有 B 帧 ,4:2:0| 有 B 帧 ,4:2:2| 有 B 帧 ,4:2:0| _、 或 4:2 :2，SNR 可 分 
备注 本 de 采样 ，SNR 可 分 级 ， a 
采样 ， 不 分 级 采样 ， 不 分 级 采样 ， 不 分 级 采样 ，SNR 可 分 级 守则 可 分 级 级 , 空间 可 分 级 ， 时 
间 可 分 级 























在 表示 “类 ”与 “级 ”的 组 合 时 ， 常 用 缩写 的 形式 ， 如 HP@ HL 表示 High Profile 与 High 
Level 的 组 合 。 目 前 常用 的 是 主 类 ， 其 中 MP@ ML 可 应 用 于 多 种 场合 ， 卫 星 直播 数字 电视 、 
SDTV、DVD 等 采用 这 种 组 合 。MP@ HL 用 于 HDTV 系统 。SP@ ML 常用 于 数字 有 线 电视 或 数字 录 
像 机 中 ， 它 不 采用 B 帧 ， 故 所 需 的 存储 容量 较 小 。 

MPEG-2 标准 改变 了 MPEG-1 视频 只 能 在 本 地 播放 的 状况 ， 当 MPEG-2 的 视频 码 流 打包 成 传 
送 码 流 (TS) 后 ， 可 以 在 ATM 网 上 实现 视频 的 流 式 播 放 。MPEG-2 不 是 MPEG-1 的 简单 升级 ， 
它 在 系统 和 传送 方面 做 了 更 加 详细 的 规定 和 进一步 的 完善 。 它 的 应 用 领域 非常 广泛 ， 包括 存 储 
媒介 中 的 DVD、 广 播 电 视 中 的 数字 电视 和 HDTV、 交 互 式 的 视频 点 播 (Video On Demand，VOD) 
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以 及 ATM 网 络 等 不 同 信道 上 的 视频 码 流传 输 ， 所 以 MPEG-2 将 具有 信道 自 适应 特点 的 可 分 级 编 
码 等 技术 也 纳入 标准 之 中 。 

3， MPEG-4 标准 

MPEG-1/2 最 主要 的 目标 是 通过 数据 压缩 技术 ， 实 现 数字 音 / 视 频数 据 的 有 效 存储 和 传送 。 
它们 所 处 理 的 是 音频 及 基于 “和 矩形 帧 ”的 视频 信息 ， 而 其 交互 功能 也 仪 局 限于 音频 及 矩形 帧 层 
次 上 ， 用 户 得 到 的 是 制作 人 员 事 先 编排 好 的 场景 ， 只 能 对 音 /视频 序列 进行 简单 的 回放 。1999 年 
1 月 ， 新 一 代 音 视频 对 象 编码 标准 MPEG-4 正式 发 布 ， 标 准 号 为 ISO/IEC 14496。 

MPEG-4 标准 超越 了 MPEG-1/2 的 目标 ， 以 音 视 对 象 (Audio Visual Object，AVO) 的 形式 对 
AV 场景 进行 描述 。 这 些 AVO 在 空间 及 时 间 上 有 一 定 的 关联 ， 经 过 分 析 ， 可 对 AV 场景 进行 分 层 
描述 。 因 此 ，MPEG-4 提供 了 一 种 轿 新 的 交互 方式 一 一 基于 内 容 的 交互 ， 人 允许 用 户 根据 系统 能 
同 每 一 个 AV 对 象 进行 交互 并 可 操纵 之 。 根 据 制 作者 设计 的 具体 自由 

， 用 户 不 仅 可 以 改变 场景 的 视角 ， 还 可 以 改变 场景 中 对 象 的 位 置 、 大 小 和 形状 ， 或 置换 甚至 清 
he MPEG-4 集成 了 不 同性 质 的 对 象 ， 例 如 自然 视频 对 象 ， 计 算 机 生成 的 图 形 、 图 像 、 文 
字 ， 自 然 及 合成 音频 对 象 等 。 

MPEG-4 标准 包含 22 个 部 分 ， 如 表 6-2 所 示 ， 各 个 部 分 既 独立 又 紧密 相关 。 与 视频 编码 相关 
的 是 第 2 部 分 和 第 10 部 分 ， 其 中 第 10 部 分 等 同 于 ITU-T H. 264 标准 。 

表 6-2 MPEG-4 标准 的 组 成 

第 1 部 分 系统 (Systems) : 描述 视频 和 音频 的 同步 及 复 用 

第 2 部 分 视觉 对 象 ( Visual) : 视觉 对 象 数据 (包括 视频 、 静 态 纹理 、 合 成 图 像 等 ) 的 压缩 编码 

第 3 部 分 音频 (Audio) 

第 4 部 分 一 致 性 测试 (Conformance Testing) 

第 5 部 分 参考 软件 ( Reference Software) 

第 6 部 分 传递 多 媒体 集成 框架 ( Delivery Multimedia Integration Framework ，DMIF) 

第 7 部 分 优化 的 音 视 对 象 编码 参考 软件 ( Optimized reference software for coding of audio-visual objects) 

第 8 部 分 MPEG-4 码 流 在 卫 网络 上 的 传输 (Transport of MPEG-4 over IP Network) 

第 9 部 分 参考 硬件 描述 (Reference Hardware Description ) 
第 10 部 分 高 级 视频 编码 (Advanced Video Coding ，AVC) : 等 同 于 ITU-T H. 264 标准 
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第 11 部 分 场景 描述 和 应 用 引擎 (Scene Description and Application Engine) 

第 12 部 分 ISO 基本 媒体 文件 格式 (ISO Base Media File Format) : 用 于 存储 媒体 内 容 的 一 种 文件 格式 

第 13 部 分 知识 产权 管理 和 保护 的 扩展 (IPMP Extensions ) 

第 14 部 分 MP4 文件 格式 ( MPEG-4 File Format) :基于 第 12 部 分 

第 15 部 分 AVC 文件 格式 ( MPEG-4 File Format) : 用 于 存储 采用 AVC 编码 的 视频 内 容 ， 也 基于 第 12 部 分 
第 16 部 分 动画 框架 扩展 ( Animation Framework eXtension ，AFX) 




































































第 17 部 分 流 式 文本 格式 (Streaming Text Format) 








第 18 部 分 字体 压缩 与 流 ( Font Compression and Streaming) 











第 19 部 分 合成 的 纹理 流 (Synthesized Texture Streaming) 
0 部 分 轻便 应 用 场景 表现 (Lightweight Application Scene Representation ，LASeR ) 











第 21 部 分 MPFG-J 图形 框架 扩展 ( MPEG-] Graphical Framework eXtension ) 
第 22 部 分 开放 的 字体 格式 (Open Font Format) 
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6.2.3 AVS 和 AVS + 标准 


AVS 是 Audio Video coding Standard 的 简称 。AVS 工作 组 制定 标准 的 总 体 战略 是 :“ 知 识 产 权 
自主 、 编 码 效 率 高 、 实 现 复杂 度 低 、 系 统 尽 可 能 兼容 、 面 向 具体 应 用 。” 目前 AVS 工作 组 制定 的 
标准 包括 以 下 几 个 方面 。 

se。《 信 息 技术 先进 音 视 频 编 码 》(AVS1 ) 。 

se。《 安 防 监控 音 视 频 编码 》(AVS-S) 。 

。《 信 息 技术 高 效 多 媒体 编码 》(AVS2 ) 。 

。《 信 息 技术 数字 媒体 内 容 描 述 》( AVD)。 

AVS1 标准 是 《信息 技术 先进 音 视频 编码 》 系 列 标准 的 简称 ， 目 前 包含 了 系统 、 视 频 、 音 
频 、 符 合 性 测试 、 参 考 软件 等 14 个 部 分 ， 其 中 : 

。《 信 息 技术 先进 音 视频 编码 第 1 部 : 系统 》， 简 称 AVS1-P1 ， 标 准 代 号 为 GBMT 20090. 1 一 
2012， 于 2012 年 12 月 31 日 颁布 为 国家 标准 ，2013 年 6 月 1 日 正式 实施 。 

。《 信 息 技 术 先进 音 视频 编码 第 2 部 分 : 视频 》， 简 称 AVS1-P2， 于 2006 年 2 月 颁布 为 国家 
标准 ， 标 准 代 号 为 GB/T 20090. 2 一 2006。 

se。《 信 息 技术 先进 音 视 频 编码 第 2 部 : 视频 》( 修 订 )， 标 准 代 号 为 GB/T 20090. 2 一 2013 ， 
于 2013 年 12 月 31 日 颁布 为 国家 标准 ， 将 替代 GB/T 20090. 2 一 2006， 于 2014 年 7 月 15 日 正 

。《 信 息 技术 先进 音 视 频 编 码 第 4 部 : 符合 性 测试 》， 简 称 AVS1- P4， 标 准 代 号 为 GBMT 
20090. 4 一 2012， 于 2012 年 12 月 31 日 颁布 为 国家 标准 ，2013 年 6 月 1 日 正式 实施 。 

。《 信 息 技术 先进 音 视 频 编 码 第 5 部 : 参考 软件 》， 简 称 AVS1- P5， 标 准 代 号 为 GBMT 
20090. 5 一 2012， 于 2012 年 12 月 31 日 颁布 为 国家 标准 ，2013 年 6 月 1 日 正式 实施 。 

。《 信 息 技术 先进 音 视频 编码 第 10 部 : 移动 语音 和 音频 》， 简 称 AVS1-P10 ， 标 准 代 号 为 CGB/T 
20090. 10 一 2013， 于 2013 年 12 月 31 日 颁布 为 国家 标准 ，2014 年 7 月 15 日 正式 实施 。 

其 他 部 分 的 标准 化 正在 积极 推进 中 。 

2013 年 6 月 4 日 ，AVS 视频 部 分 由 国际 电子 信息 领域 影响 最 大 的 学 术 组 织 IEEE (美国 电气 
和 电子 工程 师 协会 ) 出 版 ， 标 准 号 为 IEEE 1857 一 2013。 除 了 包括 面向 数字 电视 类 ( Profile) 外 ， 
IEEE 1857 一 2013 还 包括 面向 移动 通信 和 视频 监控 的 两 个 新 类 ， 其 对 监控 视频 的 压缩 效率 达到 同 
类 国际 标准 的 两 倍 ， 在 国际 上 处 于 明显 领先 的 位 置 ， 有 望 从 技术 源头 上 改变 视频 监控 产业 的 
格局 。 

2012 年 7 月 10 日 ,国家 广播 电影 电视 总 局 正式 颁布 了 广播 电影 电视 行业 标准 《广播 电视 先 
进 音 视频 编 解码 第 1 部 分 : 视频 》( 简称 AVS + ,标准 代号 为 GYAT 257. 1 一 2012)， 自 颁布 之 日 
起 实施 。AVS + 的 颁布 与 实施 对 我 国 高 清晰 度数 字 电 视 、3D 数字 电视 等 广电 领域 新 业务 的 发 展 
具有 重要 的 战略 意义 。2012 年 8 月 24 日 ,工业 和 信息 化 部 电子 信息 司 与 国家 广播 电影 电视 总 局 
科技 司 联合 主办 ““《 广 播 电 视 先 进 音 视 频 编 解 码 第 1 部 分 : 视频 》 (AVS + ) 标准 发 布 暨 宣 贯 
会 ” ， 共 同 推进 该 标准 的 应 用 和 产业 化 。2013 年 10 月 28 日 ， 国 家 新 闻 出 版 广电 总 局 颁布 了 
《AVS + 高清 编码 器 技术 要 求 和 测量 方法 》 行 业 标 准 (GYZT 271 一 2013 ) ， 自 颁布 之 日 起 实施 。 
2014 年 3 月 18 日 ,工业 和 信息 化 部 与 国家 新 闻 出 版 广电 总 局 联合 发 布 了 《广播 电视 先进 视频 编 
解码 (AVS + ) 技术 应 用 实施 指南 》( 以 下 简称 《指南 》) 。《 指 南 》 对 AVS + 标准 在 卫星 传输 分 
发 、 卫 星 直 播 电视 、 有 线 数字 电视 、 地 面 数字 电视 、 互 联网 电视 和 交互 式 网 络 电视 ( Internet 
Protocol Television ，IPTV) 中 的 应 用 提出 了 明确 的 指导 意见 和 推进 方案 。《 指 南 》 的 实施 对 加 快 实 
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现 AVS + 端 到 端的 应 用 推广 ， 推 动 AVS + 在 广播 电视 领域 的 应 用 ， 构建 AVS 完整 产业 链 将 具有 
要 意义 。 这 是 我 国 音 视频 领域 的 一 件 大 事 ， 也 是 我 国 广 播 电 视 运 营 和 相关 制造 业 的 一 件 大 事 。 

为 了 支持 4K、8K 超 高 清晰 度数 字 视 频 和 环绕 立体 声 ，AVS 工作 组 从 2012 年 9 月 开始 将 工 
作 转 向 第 二 代 AVS 标准 ， 即 《信息 技术 高 效 多 媒体 编码 》 标 准 (简称 AVS2) 的 制定 。AVS2 视 
频 标 准 (《 信 息 技术 高 效 多 媒体 编码 第 2 部 分 : 视频 》， 简 称 AVS2-P2) 的 首要 应 用 目标 是 超 高 
清晰 度 视频 。 超 高 清晰 度 视 频 的 分 辩 率 相当 于 高 清晰 度 电 视 的 4 倍 (4K 超 高 清 ) 或 16 倍 (8K 
超 高 清 ) ， 需 要 压缩 效率 更 高 的 视频 编码 标准 。 测 试 表 明 ，AVS2 视频 标准 的 压缩 效率 已 经 比 第 
一 代 AVS 国家 标准 和 AVC/H. 264 国际 标准 提高 了 一 倍 ， 在 场景 类 视频 编码 方面 大 幅度 领先 于 最 
新 国际 标准 HEVC/H. 265， 实 现 复杂 度 不 高 于 同等 级 的 编码 标准 。AVS2 音频 标准 ( 《信息 技术 
高 效 多 媒体 编码 第 3 部 分 : 音频 》， 简 称 AVS2-P3) 包括 纯 无 损 和 有 损 兼 容 两 套 方案 ， 后 者 完整 
包含 了 第 一 代 AVS 有 损 音频 编码 ， 若 完整 解码 这 种 码 流 ， 可 以 完全 无 失真 地 还 原音 频 ， 而 部 分 
解码 也 可 以 回放 高 质量 的 音频 。AVS2 无 损 音 频 编 码 已 经 由 IEEE 颁布 为 IEEE 1857. 2 一 2013 标准 
并 正式 出 版 发 行 。 

视听 内 容 快 速 搜索 和 深度 利用 的 重要 性 日 益 增 强 。 为 此 ，AVS 工作 组 在 2013 年 6 月 正式 成 
立 了 “数字 媒体 内 容 描 述 ” 专 题 组 ， 开 始 制定 《信息 技术 数字 媒体 内 容 描述 》 (AVD) 标准 ， 
目前 包括 3 个 部 分 : 第 一 部 分 “标识 、 分 类 和 核心 元 数据 ” ， 第 二 部 分 “视觉 对 象 描述 ”和 第 三 
部 分 “上 听觉 对 象 描述 ”。 该 标准 继承 AVS 编码 标准 的 特色 ， 将 针对 不 同 应 用 制定 专门 的 “类 ?” 
(Profile) ， 针 对 不 同 的 需求 将 内 容 描述 分 为 不 同 的 “级 ”。 第 一 阶段 预计 包括 基本 类 (面向 视听 
内 容 描述 的 共性 通用 特征 ) 、 监 控 类 (面向 视频 监控 应 用 的 对 象 描述 ) 和 移动 类 (面向 移动 互联 
网 的 视觉 搜索 和 增强 现实 等 应 用 ) ， 而 各 种 类 的 视听 描述 又 将 分 为 底层 特征 (例如 颜色 、 形 状 、 
纹理 ) 、 中 层 特征 (例如 运动 对 象 ) 和 高 层 特征 (例如 对 象 分 类 、 人 脸 识 别 和 语义 描述 等 ) 。 
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6.3 ” H.264/AVC 视频 编码 标准 





1995 年 ， 在 完成 H. 263 标准 基本 版 本 后 ，ITU-T 下 属 的 视频 编码 专家 组 (VCEG) 就 开始 针 
对 极 低 数码 率 视频 编码 标准 的 长 期 (Long Term) 目标 进行 研究 ， 希 望 能 够 形成 一 个 在 性 能 方面 
与 现 有 标准 有 较 大 区 别 的 高 压缩 比 视频 编码 标准 ， 主 要 针对 “会 话 ” 服 务 (视频 会 议 、 可 视 电 
话 ) 和 “ 非 会 话 ” 服 务 (视频 的 存储 、 广 播 以 及 流 媒体 ) 提供 更 加 适合 网 络 传输 的 解决 方案 。 
在 标准 制定 的 初期 ，VECG 形成 的 相关 标准 草案 被 定名 为 H. 26L。1999 年 8 月 ，VCEG 完成 了 第 
一 个 草案 文档 和 第 一 个 测试 模型 TML-1， 测 试 结果 显示 其 软件 编码 的 质量 远 优 于 当时 基于 MPEG- 
4 标准 的 软件 编码 的 视频 流质 量 。 这 时 ，MPEG 也 启动 了 在 高 级 视频 编码 (Advance Video Cod- 
ing，AVC) 方面 的 研究 。 在 充分 意识 到 H. 26L 的 良好 发 展 前 景 之 后 ，ISO/IEC 的 MPEG 和 TITU-T 
的 VCEG 再 次 合作 ， 组 建 了 联合 视频 工作 组 (Joint Video Team，JVT) ， 其 目的 就 是 在 H. 26L 技 
术 体 系 上 进一步 完善 ， 共 同 研究 并 推动 新 的 视频 编码 国际 标准 。2002 年 5 月 JVT 形 成 委员 会 草 
案 ， 并 于 同年 12 月 完成 最 终 国际 标准 草案 。2003 年 3 月 ， 这 个 草案 正式 被 批准 ， 官 方 名 字 分 别 
为 ITU-T H.264 和 ISO/IEC MPEG-4 AVC 或 ISO/IEC MPEG-4 Part 10。 

H. 264/AVC 标准 仍 采 用 基于 块 的 运动 补偿 预 测 编码 、 变 换 编 码 以 及 炉 编 码 相 结合 的 混合 编 
码 框架 ， 并 在 帧 内 预测 、 块 大 小 可 变 的 运动 补偿 、4 x4 整数 变换 、1/8 精度 运动 估计 、 上 下 文 自 
适应 的 二 进 制 算术 编码 (CABAC) 等 诸多 环节 中 引入 新 技术 ， 使 其 编码 效率 与 以 前 标准 相 比 有 
了 很 大 提高 。 此 外 ， 它 采用 分 层 结构 的 设计 思想 将 编码 与 传输 特性 进行 分 离 ， 增 强 了 码 流 对 网 络 
的 适应 性 及 抗 误 码 能 力 。 本 节 将 主要 就 这 些 新 的 特性 进行 介绍 和 讨论 。 
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6.3.1 H.264/AVC 视频 编码 器 的 分 层 结构 
随 着 市 场 对 视频 网 络 传输 需求 的 增加 ， 如 何 适应 不 同 信道 传输 特性 的 问题 也 日 益 显 现 出 来 。 


H. 264 为 了 解决 这 个 问题 ， 提 
视频 编码 层 (VCD) 
[| 编码 后 的 宏志 


供 了 很 多 灵活 性 和 客户 定制 化 
编码 后 的 宏 块 条 /分 区 














特性 。H. 264 视频 编码 结构 从 
功能 和 算法 上 分 为 两 层 设 计 ， 
即 视频 编码 层 (Video Coding 
Layer，VCL) 和 网 络 抽象 层 


( Network Abstraction Layer, 


NAL) ， 如 图 6-5 所 示 。 网 络 抽象 层 (NAL) 
1) VCL 负责 高 效 的 视频 


补偿 预测 、 变 换 编 码 以 及 精 编 
码 相 结合 的 混合 编码 框架 ， 处 
理 对 象 是 块 、 宏 块 的 数据 ， 纺 
码 右 的 原理 框图 如 图 6-6 所 示 。VCL 是 视频 编码 的 核心 ， 其 中 包含 许多 实现 差错 恢复 的 工具 ， 并 采 
用 了 大 量 先 进 的 视频 编码 技术 以 提高 编码 效率 。 
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6-5”H. 264 中 的 分 层 结构 

















输入 视频 信号 











分 割 成 16X16 
像素 的 宏 块 





生成 码 流 
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2) NAL 将 经 过 VCL 层 编码 的 视频 流 进行 进一步 分 割 和 打包 封装 ， 提 供 对 不 同 网 络 性 能 匹配 
的 自 适 应 处 理 能 力 ， 负 责 网 络 的 适 配 ， 提 供 “ 网 络 友好 性 ” 。NAL 层 以 NAL 单元 作为 基本 数据 
格式 ， 它 不 仅 包含 所 有 视频 信息 ， 其 头 部 信息 也 提供 传输 层 或 存储 媒体 的 信息 ， 所 以 NAL 单元 
的 格式 适合 基于 包 传 输 的 网 络 (如 RTPZUDPZIP 网 络 ) 或 者 是 基于 比特 流传 输 的 系统 (如 
MPEG-2 系统 ) 。NAL 的 任务 是 提供 适当 的 映射 方法 将 头 部 信息 和 数据 映射 到 传输 协议 上 ， 这 样 
在 分 组 交换 传输 中 可 以 消除 组 帧 和 重 同步 开销 。 为 了 提高 H. 264 标准 的 NAL 在 不 同 特性 的 网 络 
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上 定制 VCL 数据 格式 的 能 力 , 在 VCL 和 NAL 之 间 定 义 的 基于 分 组 的 接口 、 打 包 和 相应 的 信 令 也 
属于 NAL 的 一 部 分 。 

这 种 分 层 结构 扩展 了 H. 264 的 应 用 范围 ， 几 乎 涵盖 了 目前 大 部 分 的 视频 业务 ， 如 数字 电视 、 
视频 会 议 、 视 频 电 话 、 视 频 点 播 、 流 媒体 业务 等 。 


6.3.2 H.264/AVC 中 的 预测 编码 


1. 基于 空间 域 的 帧 内 预测 编码 

视频 编码 是 通过 去 除 图 像 的 空间 与 时 间 相关 性 来 达到 压缩 的 目的 。 空 间 相关 性 通过 有 效 的 变换 
来 去 除 ， 如 DCT、H. 264 的 整数 变换 。 时 间 相 关 性 则 通过 帧 间 预 测 来 去 除 。 这 里 所 说 的 变换 去 除 空 
间 相 关 性 ， 仅 仅 局 限 在 所 变换 的 块 内 ， 如 8 x8 或 者 4 x4， 并 没有 块 与 块 之 间 的 处 理 。H 263 + 与 
MPEG-4 引入 了 帧 内 预测 技术 ， 在 变换 域 中 根据 相 邻 块 对 当前 块 的 某 些 系数 做 预测 。H. 264 则 是 在 
空间 域 中 ， 将 相 邻 块 边缘 的 已 编码 重建 的 像素 值 直接 进行 外 推 ， 作 为 对 当前 块 帧 内 编码 图 像 的 预测 
值 ， 更 有 效 地 去 除 相 邻 块 之 间 的 相关 性 ， 极 大 地 提高 了 帧 内 编码 的 效率 。 

对 亮度 像素 而 言 ， 预 测 块 P 用 于 4 x4 亮度 子 块 或 者 16 x 16 亮度 宏 块 的 相关 操作 。4 x4 亮度 
子 块 有 9 种 可 选 预测 的 模式 ， 独 立 预测 每 一 个 4 x4 亮度 子 块 ， 适 用 于 带 有 大 量 细节 的 图 像 编 码 。 
16 x16 亮度 块 有 4 种 预测 模式 ， 预 测 整个 16 x 16 亮度 块 ， 适 用 于 平坦 区 域 图 像 编 码 。 色 度 块 也 
有 4 种 预测 模式 ， 对 8 x8 块 进行 操作 。 编 码 器 通常 选择 使 P 块 和 编码 块 之 间 差 异 最 小 的 预测 
模式 。 

此 外 ， 还 有 一 种 帧 内 编码 模式 称 为 I PCM 编码 模式 。 在 该 模式 下 ， 编 码 器 直接 传输 图 像 的 
像素 值 ， 而 不 经 过 预测 和 变换 。 在 一 些 特殊 的 情况 下 ， 特 别 是 图 像 内 容 不 规则 或 者 量化 参数 非常 
低 时 ,该 模式 比 起 “常规 操作 ”( 帧 内 预测 -变换 -量化 - 信 编 码 ) 效率 更 高 。 

(1) 4 x4 亮度 块 帧 内 预测 模式 

4 x4 亮度 块 内 待 编码 像素 和 参考 像素 之 间 的 位 置 关系 
如 图 6-7 所 示 ， 其 中 大 写字 母 A ~ M 表示 4 x4 亮度 块 的 上 
方 和 左 方 像素 ， 这 些 像素 为 先 于 本 块 已 重建 的 像素 ， 作 为 
编码 器 中 的 预测 参考 像素 ， 小 写 英文 字母 a ~p 表 示 4x4  ”“ !' 
亮度 块 内 部 的 16 个 待 预测 像素 ， 其 预测 值 将 利用 A~M 的 * i 
值 和 图 6-8 所 示 的 9 种 预测 模式 来 计算 。 其 中 模式 2 是 DC “ " "” °。P 
预测 ， 而 其 余 8 种 模式 所 对 应 的 预测 方向 如 图 6-8 中 的 箭 图 6-7 4x4 亮度 块 内 待 编码 像素 和 
头 所 示 。 参考 像素 之 间 的 位 置 关 系 示意 图 

例如 ， 当 选择 模式 0 (垂直 预测 ) 进行 预测 时 ， 如 果 
像素 A、B、C、D 存在 ,那么 像素 a、e、i、m 由 A 预测 得 到 ; 像素 b、f、j、n 由 B 预测 得 到 ; 
像素 c<、g、k、o 由 C 预测 得 到 ; 像素 d、h、1、p 由 DD 预测 得 到 。 

当选 择 模式 2 进行 DC 预测 时 ， 如 果 所 有 的 参考 像素 均 在 图 像 内 , 那么 DC=(A+B+C+D+ 
I+J+K+L+4)/8; 如 果 像 素 A、B、C、D 在 图 像 外 ， 而 像素 I、J、K 和 工 在 图 像 中 ,那么 DC = 
(I+J+K+L+2)/4; 如 果 像 素 I、J、K 和 工 在 图 像 外 ， 而 像素 A、B、C、 DD 在 图 像 中 ， 那 么 DC = 
(A+B+C+D+2)/4; 如 果 所 有 的 参考 像素 均 在 图 像 外 ， 那 么 DC = 128。 

当选 择 模式 3 进行 预测 时 ， 如 果 像 素 A、B、C、D、E、F、G、H 存在 ， 那 么 


a = 二 (A+2B+C+2) 
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由 于 篇 幅 所 限 ， 这 里 不 再 对 其 余 预 测 模式 做 介绍 。 

(2) 16 x16 亮度 块 帧 内 预测 模式 

对 于 大 面积 平坦 区 域 ，H. 264 也 支持 16 x16 的 高度 明和 预测， 此 时 可 在 图 6-9 所 示 的 4 种 预 
测 模式 中 选用 一 种 来 对 整个 16 x 16 的 宏 块 进行 预测 。 这 4 种 预测 模式 分 别 为 模式 0 (垂直 预 
测 ) 、 模 式 1 (水 平 预测 ) 、 模 式 2 (DC 预测 ) 、 模 式 3 (平面 预测 ) 


山 于 [~ 加 区 


0( 垂 直 预 测 ) 1( 水 平 预 测 ) 20DO) 3( 平 面 预测 ) 
图 6-9 16 x16 亮度 块 帧 内 预测 模式 
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(3) 8 x8 色 度 预测 模式 

每 个 帧 内 编码 宏 块 的 8 x8 色 度 成 分 由 已 编码 左上 方 色 度 像素 的 预测 而 得 ， 两 种 色 度 成 分 常 
用 同一 种 预测 模式 。4 种 预测 模式 类 似 于 帧 内 16 x 16 亮度 块 预测 的 4 种 预测 模式 ， 只 是 模式 编 
号 有 所 不 同 ， 其 中 DC 预测 为 模式 0， 水平 预 测 为 模式 1， 垂 直 预 测 为 模式 2， 平 面 预测 为 模式 3。 





2. 帧 间 预 测 编码 

H. 264/AVC 标准 中 的 帧 间 预 测 是 利用 已 编码 视频 帧 / 场 和 基于 块 的 运动 补偿 的 预测 模式 。 与 
以 往 标 准 中 的 帧 间 预 测 的 区 别 在 于 块 大 小 范围 更 广 (从 16 x 16 亮度 块 到 4 x4 亮度 块 ) ， 且 具有 
亚 像素 运动 矢量 的 使 用 (亮度 采用 1/4 像素 精度 的 运动 矢量 ) 及 多 参考 帧 的 使 用 等 。 

(1) 块 大 小 可 变 的 运动 补偿 


在 帧 间 预 测 编码 时 ， 块 大 小 对 运动 | i 
估计 及 运动 补偿 的 效果 是 有 影响 的 。 在 | 
H. 263 中 最 小 的 运动 补偿 块 是 8 x8 像 - 


素 。H. 264 编码 器 支持 多 模式 运动 补偿 ow 0 Se 0 


技术 ,亮度 块 的 大 小 从 16 x16 到 4 x4， 
采用 二 级 树 状 结构 的 运动 补偿 块 划 分 方 ss 加 [| 
法 ， 如 图 6-10 所 示 。 每 个 宏 块 (16 x 16 贺 辑 
像素 ) 可 以 按 4 种 方式 进行 分 割 : 1 个 4X4 
16 x 16 亮度 块 , 或 2 个 16 x8 亮度 块 ， 图 6-10 树 状 结构 的 运动 补偿 块 划分 方法 
或 2 个 8 x16 亮度 块 ， 或 4 个 8 x8 亮度 
块 。 其 运动 补偿 也 相应 有 4 种 。 而 对 于 每 个 8 x8 亮度 块 还 可 以 进一步 以 4 种 方式 进行 分 割 ， 即 1 个 
8 x8 亮度 块 ， 或 2 个 4x8 亮度 块 , 或 2 个 8 x4 亮度 块 , 或 4 个 4 x4 亮度 块 。 

也 就 是 说 ， 一 个 宏 块 可 以 划分 为 多 个 不 同 大 小 的 子 块 ， 每 个 子 块 都 可 以 有 单独 的 运动 矢量 。 
分 块 模式 信息 、 运 动 矢量 、 预 测 误差 都 需要 编码 和 传输 。 当 选择 比较 大 的 块 (如 16x16，16 x8， 
8 x16) 进行 编码 时 ， 意 味 着 块 类 型 选择 所 用 的 比特 数 减少 以 及 需要 发 送 的 运动 矢量 较 少 , 但 相 
应 的 运动 补偿 误差 较 大 ， 因 而 需要 编码 的 块 残 差 数据 较 多 ;， 当 采用 较 小 的 子 块 (如 4 x4, 4 x8， 
8 x4) 进行 编码 时 ， 一 个 宏 块 需要 传送 更 多 的 运动 矢量 ， 同 时 子 块 类 型 选择 所 用 的 比特 数 增加 ， 
比特 流 中 宏 块 头 信息 和 参数 信息 所 占用 的 比特 数 大 大 增加 ,但 是 运动 预测 更 加 精确 ， 运 动 补偿 
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后 的 残 差 数据 编码 所 用 的 比特 数 减 少 。 因 此 ， 编 码 子 块 大 小 的 选择 对 于 压缩 性 能 有 比较 大 的 影 
响 。 显 然 ， 对 较 大 物体 的 运动 ， 可 采用 较 大 的 块 来 进行 预测 ; 而 对 较 小 物体 的 运动 或 细节 丰富 的 
图 像 区域 ， 采 用 较 小 块 运动 预测 的 效果 更 加 优良 。 

宏 块 中 色 度 成 分 (C, 和 C,) 的 分 辩 率 是 相应 亮度 的 一 半 ， 除 了 块 大 小 在 水 平和 垂直 方向 上 
都 是 亮度 的 1/2 以 外 ， 色 度 块 采 用 和 亮度 块 同样 的 划分 方法 。 例 如 ，8 x 16 亮度 块 所 对 应 的 色 度 
块 大 小 为 4x8，8 x4 亮度 块 所 对 应 的 色 度 块 大 小 为 4x2 等 。 色 度 块 的 运动 矢量 也 是 通过 相应 的 
亮度 运动 矢量 的 水 平和 垂直 分 量 减 半 而 得 。 

在 HH 264 建议 的 不 同 大 小 的 块 选择 中 ，1 个 宏 块 可 包含 有 1、2、4、8 或 16 个 运动 矢量 。 这 种 灵 
活 、 细 微 的 宏 块 划分 ， 更 切合 图 像 中 的 实际 运动 物体 的 形状 ， 精 确 地 划分 运动 物体 能 够 大 大 减 小 运动 
物体 边缘 处 的 衔接 误差 ， 提 高 了 运动 估计 的 精度 和 数据 压缩 效果 ， 同 时 图 像 回 放 的 效果 也 更 好 。 

(2) 高 精度 的 亚 像素 运动 估计 

H. 264 较 之 H. 263 增强 了 运动 估计 的 搜索 精度 。 在 H. 263 中 采用 的 是 半 像 素 精 度 的 运动 估 
计 ， 而 在 H. 264 中 可 以 采用 1/4 其 至 1/8 像素 精度 的 运动 估计 。 即 真正 的 运动 矢量 的 位 移 可 能 是 
以 1/4 其 至 1/8 像素 为 基本 单位 的 。 显 然 ， 运动 矢量 位 移 的 精度 越 高 ， 则 帧 间 预 测 误差 越 小 ， 数 
码 率 越 低 ， 即 压缩 比 越 高 。 

在 H.264 中 ， 对 于 亮度 分 量 ， 采 用 1/4 像素 精度 的 运动 
估计 ; 对 于 色 度 分 量 ， 采 用 1/8 像素 精度 的 运动 估计 。 即 首 
先 以 整 像素 精度 进行 运动 匹配 ， 得 到 最 佳 匹配 位 置 ， 再 在 此 
最 佳 位 置 周围 的 1/2 像素 位 置 进行 搜索 ， 更 新 最 佳 匹配 位 置 ， 

最 后 在 更 新 的 最 佳 匹配 位 置 周围 的 1/4 像素 位 置 进行 搜索 ， 加 本 
得 到 最 终 的 最 佳 匹配 位 置 。 图 6-11 所 示 为 1/4 像素 运动 估计 

过 程 ， 其 中 ,方块 A ~I 代 表 了 整数 像素 位 置 ，a ~bh 代表 了 

半 像 素 位 置 ，1 ~8 代表 了 1/4 像素 位 置 。 运 动 估计 器 首先 

以 整 像素 精度 进行 搜索 ， 得 到 了 最 佳 匹配 位 置 为 ， 然 后 搜 
索 下 周围 的 8 个 172 像素 点 ， 得 到 更 新 的 最 佳 匹 配 位 置 为 g， 
最 后 搜索 g 周围 的 8 个 1/4 像素 点 决定 最 后 的 最 佳 匹配 点 ， 图 6-11 L4 像素 精度 的 运动 估计 
从 而 得 到 运动 矢量。 显然 ， 要 进行 1/4 像素 精度 滤波 ， 需要 

对 图 像 进行 插值 以 产生 1/2、1/4 像素 位 置 处 的 样 点 值 。 在 H. 264 中 采用 了 6 阶 有 限 冲 激 响应 滤波 
器 的 内 插 获 得 1/2 像素 位 置 的 值 。 当 1/2 像素 值 获得 后 ，1/4 像素 值 可 通过 线性 内 插 获得 。 对 于 
4 : 2 : 0 的 视频 采样 格式 ， 亮 度 信号 的 1/4 像素 精度 对 应 于 色 度 部 分 的 1/8 像素 的 运动 矢量 ， 因 
此 需要 对 色 度 信号 进行 1/8 像素 的 内 搬运 算 。 

(3) 多 参考 帧 的 运动 补偿 预测 

在 MPEG-2、H. 263 等 标准 中 ，P 帧 只 采用 前 一 帧 进行 预测 ，B 帧 只 采用 相 邻 的 两 帧 进行 预 
测 。 而 在 H. 264/AVC 中 ， 对 P 帧 或 者 B 帧 编码 时 ， 

最 多 可 采用 5 个 参考 帧 进行 帧 间 预 测 ， 以 此 进一步 

提高 运动 补偿 预测 的 精度 。 多 参考 帧 预测 对 周期 性 
运动 和 背景 切换 能 够 提供 更 好 的 预测 效果 ， 而 且 有 

助 于 比特 流 的 恢复 。 

图 6-12 所 示 为 P 帧 编码 多 参考 帧 运动 补偿 预 
测 的 示意 图 ， 这 里 使 用 过 去 的 3 帧 对 当前 帧 进行 Fn-4 Fr3 Fr2 Fl 当前 帧 
预测 。 图 6-12 多 参考 帧 运动 补偿 预测 示意 图 
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6.3.3 整数 变换 与 量化 


与 前 几 种 视频 编码 标准 相 比 ，H. 264 标准 在 变换 编码 上 做 了 较 大 的 改进 ， 它 握 弃 了 在 多 个 标准 
中 普遍 采用 的 8 x8 DCT， 而 采用 一 种 4x4 整 数 变换 来 对 帧 内 预测 和 帧 间 预 测 的 差 值 数据 进行 变换 
编码 。 选 择 4 x4 整数 编码 ， 一 方面 是 为 了 配合 帧 间 预 测 中 所 采用 的 可 变 大 小 块 匹配 算法 ， 以 及 帧 
内 预测 编码 算法 中 的 最 小 预测 单元 的 大 小 ， 而 采用 小 的 块 也 能 相应 减少 块 效 应 和 振 铃 效应 等 不 良 影 
响 ; 另 一 方面 ， 这 种 变换 是 基于 整数 运算 的 变换 ， 其 算法 中 只 需要 加 法 和 移 位 运算 ， 因 此 运算 速度 
快 ， 并 日 在 反 变 换 过 程 中 不 会 出 现 失 配 问题 。 同 时 ，H. 264 标准 根据 这 种 整数 变换 运算 上 的 特点 ， 
将 更 为 精细 的 量化 过 程 与 变换 过 程 相 结 合 ， 可 以 进一步 减少 运算 复杂 度 ， 从 而 提高 该 编码 环节 的 整 
体 性 能 。 

H. 264 标准 中 的 变换 编码 中 根据 差 值 数据 类 型 的 不 同 引 入 了 3 种 不 同 的 变换 。 第 一 种 用 于 16 
x16 的 帧 内 编码 模式 中 亮度 块 的 DC 系数 重组 的 4 x4 和 矩阵， 第 二 种 用 于 16 x 16 帧 内 编码 模式 中 
色 度 块 的 DC 系数 重组 的 2 x2 和 矩阵 ; 第 三 种 是 针对 其 他 所 有 类 型 4 x4 差 值 矩阵 。 当 采用 自 适 应 
编码 模式 时 ， 系 统 可 以 根据 运动 补偿 采用 不 同 的 基本 块 大 小 进行 变换 。 

当 系 统 采用 16 x 16 的 帧 内 编码 模式 时 ， 先 需要 对 16 x 16 块 内 每 个 4 x4 差 值 系 数 和 矩阵 进行 
整数 变换 。 由 于 经 变换 所 得 到 的 相 邻 变换 系数 矩阵 之 间 仍 存在 一 定 的 相关 性 ， 尤 其 在 DC 系数 之 
间 ， 因 此 H. 264 标准 引入 了 一 种 DC 系数 重组 矩阵 算法 ， 并 对 重组 DC 系数 矩阵 采用 第 一 种 或 第 
二 种 变换 进行 二 次 变换 处 理 ， 来 消除 其 间 的 相关 性 。 如 图 6-13 所 示 ， 标 记 为 “ -1” 的 块 就 是 由 
16 个 4 x4 亮度 块 的 DC 系数 重组 而 成 ， 而 标记 为 “16” 和 “17” 的 两 个 块 则 是 由 色 度 块 DC 系 
数 重组 而 成 。 一 个 宏 块 中 的 数据 按 顺 序 被 传输 ， 标 记 为 “ -1” 的 块 首先 被 传输 ， 然 后 依次 传输 
标记 为 0 ~ 15 的 亮度 分 量 残 差 块 的 变换 系数 (其 中 直流 系数 被 设置 为 零 ) ， 再 传输 标记 为 16 和 
17 的 两 个 由 色 度 DC 系数 构成 的 2 x2 抢 阵 ， 最 后 传输 剩余 的 标记 为 18 ~ 25 的 色 度 分 量 残 差 块 的 
变换 系数 (其 中 直流 系数 同样 被 设置 为 零 ) 。 


像 己 视频 处 理 



























































































































































图 6-13 16 x16 帧 内 编码 模式 下 DC 系数 重组 示意 图 








1. 4 x4 整数 变换 

无 论 是 空间 域 帧 内 预测 还 是 帧 间 运 动 补 偿 预 测 ， 对 于 所 得 到 的 每 个 4 x4 像素 差 值 矩 阵 ， 
H. 264 标准 均 首 先 采 用 近似 DCT 的 整数 变换 进行 变换 编码 。 

设 4 为 4x4 变换 矩阵 ， 则 DCT 可 以 表示 为 
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数字 图 像 己 视频 压缩 编码 标 ) 图】 
a a a a a 1 a C 
b C -cec -b a 5c -a -b 
Y=AXA = (6-1) 
a -a -a a a -cc -a &b 
c -b b 一 C a -0 a 一 C 
式 中 ,na= 了 ;6= /ea 村) = ee[( 杰 
式 (6-1) 还 可 以 等 效 表示 为 
7=(CXC )GQFE 
1 1 1 11r1i 1 1 da a ab a ab 
1 dg -d -ll dd -1 -1 ab 人 0 b (6-2) 
I a sk i sd Ey a 
da -1l 1 -dj Ll1 -1 1 —d ab bb ab bb 
式 中 ,a 和 含义 与 式 (6-1) 相同 ; d = co/o; 五 为 系数 缩放 抢 阵 ; 运算 符 四 表示 CXC” 变换 后 的 
每 一 个 系数 分 别 与 矩阵 五 中 相同 的 缩放 因 





子 相 乘 。 


DCT 的 缺点 在 于 变换 矩阵 中 部 分 系数 为 无 理 数 ， 在 采 月 








日 数值 计算 时 ， 以 迭代 方法 进行 变换 


和 反 变 换 浮 点 运算 后 ， 不 能 得 到 一 致 的 初始 值 。 为 此 ， 整 数 变换 在 此 基础 上 进行 了 简化 ,将 4 近 
似 为 12， 从 而 a=1/2, b= V275 ; 再 对 矩阵 C 的 第 2 行 和 第 4 行 分 别 乘 以 2， 得 到 和 矩 阵 C,， 以 
避免 在 矩阵 运算 中 用 172 进行 乘法 而 降低 整数 运算 精度 ; 并 在 矩阵 上 加 以 补偿 ， 变 换 成 矩阵 
五/， 从 而 保证 变换 结果 不 变 。 
于 是 , 一 个 4 x4 矩阵 的 整数 变换 最 终 可 写 为 
Y =4X4 =(CXCD)@B 



































;ab 2 ob 
4“ 
1 1 1 1 1 2 1 1 ab bb ab bb 
2 1 -1 -2 ,1 1 -1 -2 国 2 4 2 4 (6-3 ) 
1 -1 -1 1 Th 二 I” 六 ,ab ,， ab 
(人 人 a 
i =9 3 eT = 1 =1 2 2 
中 
[2 4 2 4 
式 中 ,EE, 为 正 向 缩放 系数 和 矩阵。 由 于 该 矩阵 数值 固定 ， 所 以 可 以 将 其 与 核心 变换 CJXCY 分 离 ， 











实际 算法 设计 时 可 将 其 与 量化 过 程 相 结合 ， 置 于 核心 变换 之 后 进行 。 

由 上 述 过 程 可 以 看 出 ， 整 数 变换 仅 对 DCT 中 的 变换 系数 进行 相应 的 变换 ， 其 整体 基本 保持 
了 DCT 具有 的 特性 ， 因 此 具有 与 DCT 相 类 似 的 频率 分 解 特性 。 同 时 ， 整 数 变换 中 的 变换 系数 均 
为 整数 ， 这 样 在 反 变换 时 能 得 到 与 原 有 数据 完全 相同 的 结果 ， 避 兔 了 浮 点 运算 带 来 的 失 配 现象 。 
正 反 变 换 中 系数 乘 以 2 或 乘 以 1/2 均 可 以 通过 移 位 操作 来 实现 ， 从 而 大 大 降低 了 变换 运算 的 复杂 
度 。 针 对 一 个 4x4 矩阵 进行 一 次 整数 变换 或 反 变 换 ， 仅 需要 64 次 加 法 和 16 次 移 位 运算 。 

2. 量化 

对 于 整数 变换 后 的 量化 过 程 ， 


























H. 264 标准 采用 了 分 级 量化 模式 ， 其 正 向 量化 公式 为 


| 
Qn 


式 中 ,了 为 变换 后 的 系数 ，0,. 为 量化 步 长 的 大 小 ;2 ,为 量化 后 的 系数 。 








Zi -ad (6-4) 
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量化 步 长 共 分 52 个 等 级 ， 由 量化 参数 ( Quantization Parameter，QP) 值 控 制 ， 见 表 6-3。 量 
化 参数 OP 和 量化 步 长 0 基本 符合 指数 关系 ，QP 每 增加 1，0,,, 大 约 增加 12.5%。 对 于 色 度 分 
量 , 为 了 避免 视觉 上 明显 的 变化 ， 算 法 一 般 将 其 OP 限定 为 亮度 的 80% 。 这 种 精细 的 量化 步 长 的 
选择 方式 ， 在 保证 重建 图 像 质量 平稳 的 同时 ， 使 得 编码 系统 中 基于 量化 步 长 调整 的 码 流 控制 机 
制 更 为 灵活 。 








内 
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表 6-3 H.264 量化 参数 与 量化 步 长 对 照 表 





OP 0 1 3 4 5 ‘4 10 ws 24 es 36 0 51 





Qsep | 0.625 |0. 6875 |0. 8125 | 0. 875 1 1. 125 2 10 40 224 





在 H. 264 标准 测试 模型 的 实际 量化 实现 过 程 中 ， 是 将 C,XCi 核心 变换 之 后 所 需 的 缩放 过 程 
与 量化 过 程 结 合 在 一 起 ， 经 过 相应 的 推导 ， 将 运算 中 的 除法 运算 蔡 换 为 简单 的 移 位 运算 ， 以 此 来 
减少 整体 算法 的 运算 复杂 度 。 二 者 结合 后 ， 量 化 公式 变 为 
Zi = round[ (6-5) 
式 中 ，W, 为 经 CjXC' 变换 后 未 缩放 的 矩阵 系数 ;，PF 为 根据 缩放 系数 矩阵 得 到 的 。 
其 按照 系数 位 置 (i, 7) 不 同 ， 可 根据 表 6-4 选取 不 同系 数 。 
表 6-4 PF 取 值 对 应 表 

















系数 位 置 (i, PF 

(0, 0), (2, 0)» (0, 2), (2; 2) a 
(1; 1), (1 3), (3, 1), (3».3) 02/4 
其 他 ab/2 








实际 算法 进一步 进行 简化 ， 将 量化 过 程 中 的 除法 转化 为 右 移 运算 ， 即 











MPF 
Z,; -oondl | (6-6) 


式 中 ，MF = PF x2/Q,%,; 9=15 +floor(QP/6); floor( ) 函数 是 向 下 取 整 函数 。 
由 此 可 以 将 整个 量化 过 程 完全 转化 为 整数 运算 ， 推 导出 最 终 的 量化 公式 为 
Z,;= |W, MF +f|>q (6-7) 
sgn(Z,;) = sgn( W,;) (6-8) 
式 中 ， 之 为 右 移 运算 符 ; 帧 内 编码 模式 下 ,f=2/3; 帧 间 预 测 编码 模式 下 ,f=2/6; sgn( ) 为 
符号 函数 。 
对 于 反 变 换 和 反 量化 过 程 ， 与 上 述 过 程 相似 ， 可 参考 相关 文献 。 
3. 直流 系数 重组 矩阵 的 变换 和 量化 
对 于 一 个 16 x16 帧 内 编码 模式 下 的 编码 块 ， 其 16 个 4x4 亮 度 块 和 8 个 4x4 色 度 块 经 核心 
整数 变换 后 ， 抽 取 每 块 的 DC 系数 组 成 一 个 4 x4 亮度 块 DC 系数 矩阵 和 两 个 2 x2 色 度 块 DC 系数 
矩阵，H. 264 标准 再 利用 离散 哈达 玛 (DHT) 对 其 进行 二 次 变换 处 理 ， 消 除 其 间 的 元 余 度 。4 x4 
亮度 块 DC 系数 矩阵 正 变换 公式 如 式 (6-9) 所 示 ， 反 变换 公式 如 式 (6-10) 所 示 ; 2 x2 色 度 块 DC 
系数 矩阵 正 、 反 变换 公式 分 别 如 式 (6-11) 和 式 (6-12) 所 示 。 






































1 1 1 1 1 1 1 1 
7 - 工 1 1 -1 -1 1 1 -1 -1 pe 
2||T =1 =1 1 ”1 -1 -1 1 
1 -1 1 -1 1 -1 1 -1 
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1 1 1 1 1 1 1 1 
Xi | 四 a 和 py (6-10) 
T si .Sb = 1 -1 1 -1 
总 史册 -wm | Cob) 
xo=[[ Jzol -| (0 


6.3.4 基于 上 下 文 的 自 适应 炉 编 码 


H. 264 提供 两 种 炉 编 码 方案 : 上 下 文 自 适应 的 可 变 长 编码 ( Context Adaptive Variable Length 
Coding，CAVLC) 和 上 下 文 自 适 应 的 二 进 制 算术 编码 (Context Adaptive Binary Arithmetic Coding， 
CABAC) 。 

1. 上 下 文 自 适 应 的 可 变 长 编码 (CAVLC ) 

由 于 H. 264 标准 在 系统 设计 上 发 生 较 大 的 改变 ， 如 基于 4 x4 亮度 块 的 运动 补偿 、 整 数 变换 
等 ， 导 臻 量化 后 的 变换 系数 大 小 与 分 布 的 统计 特性 也 随 之 变化 ， 因 此 必须 设计 新 的 变 长 编码 算 
法 对 其 进行 处 理 。 深 入 分 析 量 化 后 的 整数 变换 系数 ， 可 以 发 现 其 基本 特性 如 下 : 

1) 在 预测 、 变 换 和 量化 后 ，4 x4 系数 块 中 的 数据 十 分 稀 玻 ， 存 在 大 量 0 系数 。 

2) 经 Zig-Zag 扫描 成 一 维 后 ， 高 频 系数 往往 呈现 由 +1 组 成 的 序列 。 

3) 相 邻 块 中 非 0 系数 的 个 数 具 有 相关 性 。 

4) 非 0 系数 靠近 直流 (DC) 系数 的 数值 较 大 ， 高 频 系 数 较 小 。 

根据 这 种 变换 系数 的 统计 分 布 规律 ，H. 264 设计 了 上 下 文 自 适应 的 可 变 长 编码 (CAVLC ) 
算法 ， 其 特点 在 于 变 长 编码 器 能 够 根据 已 经 传输 的 变换 系数 的 统计 规律 ， 在 几 个 不 同 的 既定 码 
表 之 间 实 行 自 适 应 切换 ， 使 其 能 够 更 好 地 适应 其 后 传输 变换 系数 的 统计 规律 ， 以 此 提升 变 长 编 
码 的 压缩 效率 。 

CAVLC 的 编码 过 程 如 下 : 

(1) 对 非 0 系数 的 数目 (Total Coeffs) 以 及 拖 尾 系数 的 数目 (Trailing Ones) 进行 编码 

非 0 系数 数目 的 范围 是 0 ~ 16， 拖 尾 系数 数目 的 范围 为 0 ~3 ( 拖 尾 系数 指 的 是 变换 系数 中 从 
最 后 一 个 非 0 系数 开始 逆向 扫描 、 一 直 相 连 且 绝对 值 为 1 的 系数 的 个 数 ) 。 如 果 拖 尾 系数 个 数 大 
于 3， 则 只 有 最 后 3 个 系数 被 视 为 拖 尾 系数 ， 其 余 的 被 视 为 普通 的 非 0 系数 。 对 于 Total Coeffs 和 
Tailing Ones 的 编码 是 通过 查 表 的 方式 来 进行 ， 且 表格 可 以 根据 数值 的 不 同 自 适应 地 进行 选择 。 

表格 的 选择 是 根据 变量 NC (Number Curent) 的 值 来 选择 的 ， 在 求 变量 NC 的 过 程 中 ， 体 现 了 
基于 上 下 文 的 思想 。 当 前 块 NC 的 值 是 根据 当前 块 左 边 4 x4 亮度 块 的 非 0 系数 数目 (NL) 和 当前 
块 上 面 4x4 亮度 块 的 非 0 系数 数目 (NU) 来 确定 。 当 NL 和 NU 都 可 用 时 (可 用 指 的 是 与 当前 块 
处 于 同一 宏 块 条 中 ) ，NC = (NU + NL)/2; 当 只 有 其 一 可 用 时 ，NC 则 等 于 可 用 的 NU 或 NL; 当 两 者 
都 不 可 用 时 ，NC =0。 得 到 NC 的 值 后 ， 根 据 表 6-5 来 选用 合适 的 码 表 。 


表 6-5 NC 与 码 表 的 选择 关系 















































































































































NC 码 表 
0, 1 VLCO 
2 VLC1 
4, 5, 6,7 VLC2 
三 8 FLC ( 定 长 码 ) 
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(2) 对 每 个 拖 尾 系数 的 符号 进行 编码 

对 于 每 个 拖 尾 系数 ( +1) 只 需要 指明 其 符号 ， 其 符号 用 一 个 比特 表示 (0 表示 +1，1 表示 
-1)。 编 码 的 顺序 时 按照 逆向 扫描 的 顺序 ， 从 高 频数 据 开始 。 

(3) 对 除了 拖 尾 系数 之 外 的 非 0 系数 进行 编码 

编码 同样 采用 从 最 高 频 逆 向 扫描 进行 ，CAVLC 提供 了 7 个 变 长 码 表 ， 见 表 6-6， 算 法 根据 已 
编码 非 0 系数 来 自 适应 地 选择 当前 编码 码 表 。 初 始 码 表 采 用 Level_VLC0， 每 编码 一 个 非 0 系数 之 
后 ， 如 果 该 系数 大 于 当前 码 表 的 门限 值 ， 则 需要 提升 切换 到 下 一 级 VLC 码 表 。 这 一 方法 主要 根 
据 变换 系数 块 内 非 0 系数 越 接近 DC， 数 值 越 大 的 特点 设计 的 。 


表 6-6 非 0 系数 VLC 码 表 选 择 


当前 VLC 码 表 VLCO VLC1 VLC2 VLC3 VLC4 VLC5 VLC6 
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门限 值 0 3 6 12 24 48 N/A 


(4) 对 最 后 一 个 非 0 系数 前 0 的 数目 (Total Zeros) 进行 编码 

Total Zeros 指 的 是 在 最 后 一 个 非 0 系数 前 0 的 数目 ， 此 非 0 系数 指 的 是 按照 正 向 扫描 的 最 后 
一 个 非 0 系数 。 因 为 非 0 系数 的 数目 是 已 知 的 ， 这 就 决定 了 Total Zeros 可 能 的 最 大 值 ， 根 据 这 一 
特性 ，CAVLC 在 编排 Total Zeros 的 码 表 时 做 了 进一步 的 优化 。 

(5) 对 每 个 非 0 系数 前 0 的 个 数 (Run Before) 进行 编码 

每 个 非 0 系数 前 0 的 个 数 (Run Before) 是 按照 逆序 来 进行 编码 的 ， 从 最 高 频 的 非 0 系数 开 
始 ，Run Before 在 以 下 两 种 情况 下 是 不 需要 编码 的 : 

1) 最 后 一 个 非 0 系数 (在 低频 位 置 上 ) 前 0 的 个 数 。 

2) 如 果 没 有 剩余 的 0 需要 编码 ， 就 没 必要 再 进行 Run Before 编码 。 

2. 上 下 文 自 适 应 的 二 进 制 算术 编码 (CABAC ) 

为 了 更 高 效 地 传输 变换 系数 ，H. 264 标准 还 提供 了 一 种 上 下 文 自 适应 的 二 进 制 算术 编码 
(CABAC) 算法 ， 它 是 由 H.263 标准 中 基于 语法 的 算术 编码 改进 而 来 ， 与 经 典 算术 编码 原理 相 
同 ， 其 不 同 之 处 在 于 需要 对 编码 元 素 中 的 非 二 进 制 数值 进行 转换 ， 然 后 进行 算术 编码 。 

CABAC 的 编码 过 程 如 下 : 

1) 二 值 化 。 一 个 非 二 值 数 在 算术 编码 之 前 首先 必须 二 值 化 ， 这 个 过 程 类 似 于 对 一 个 符号 进 
行 变 长 编码 ， 不 同 的 是 ， 编 码 后 的 “0”、“1” 要 再 次 进行 算术 编码 。 

2) 选择 上 下 文 模型 。 上 下 文 模型 实际 上 就 是 二 值 符号 的 概率 模型 。 它 可 以 根据 最 近 已 编码 
符号 的 统计 结果 来 确定 。 在 CABAC 中 ,“ 上 下 文 模型 ”只 存放 了 “0”、“1” 的 概率 。 

3) 算术 编码 。 使 用 已 选择 的 概率 模型 对 当前 二 值 符号 进行 算术 编码 。 

4) 概率 更 新 。 根 据 已 编码 的 符号 对 选择 的 模型 进行 更 新 ， 即 如 果 编 码 符 号 为 “1”， 则 “1” 
的 频率 要 有 所 增加 。 

试验 表明 ， 在 相同 的 重建 图 像 质 量 前 提 下 ， 采 用 CABAC 算法 能 够 比 CAVLC 算法 节省 10% ~ 
15% 的 数码 率 。 


6.3.5 H.264/AVC 中 的 SLSP 帧 


在 以 前 的 视频 标准 ， 如 MPEG-2 、H. 263 和 MPEG-4 中 主要 定义 了 三 种 类 型 的 帧 : I 帧 、P 帧 
和 B 帧 。 它 们 分 别针 对 视频 序列 中 不 同类 型 的 宛 余 性 ， 提 供 不 同 的 压缩 效率 和 功能 。 针 对 视频 
序列 中 帧 之 间 的 高 度 相关 性 ， 为 了 获得 较 高 的 压缩 效率 ， 通 常 的 做 法 是 大 量 地 使 用 P 帧 、B 帧 来 
取代 工 帧 ， 因 此 相 邻 压缩 帧 之 间 具 有 很 强 的 解码 依赖 性 。 使 得 前 、 后 帧 预测 获得 的 P 帧 、B 帧 一 
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旦 在 解码 时 找 不 到 相应 的 编码 参考 帧 ， 就 不 能 被 正确 的 解码 。 这 样 以 它们 为 参考 帧 的 后 续 帧 就 
都 将 不 能 被 正确 地 重建 。 这 些 后 续 帧 的 错误 又 会 影响 到 随后 以 它们 为 参考 帧 的 帧 ， 从 而 使 得 错 
误 蔓 延 下 去 。 以 往 的 标准 中 都 是 通过 不 断 地 搬 人 工 帧 来 解决 此 问题 ， 但 由 于 工 帧 的 压缩 效率 相对 
于 B、P 帧 要 低 得 多 ， 因 此 这 种 做 法 势必 要 降低 编码 效率 。 另 一 方面 ， 在 实时 视频 编 解码 系统 
中 ， 信 道 传输 速率 的 快速 匹配 通常 是 通过 调整 基于 宏 块 的 量化 参数 来 实现 的 ， 对 于 非 实时 的 视 
频 流 系统 ， 可 以 通过 设计 合理 的 缓冲 区 来 实现 与 信道 传输 速率 的 匹配 。 尽 管 如 此 ， 变 速率 环境 下 
视频 系统 的 存储 器 溢出 问题 仍 不 能 完全 解决 。 再 者 ， 在 进行 不 同 码 流 之 间 的 切换 与 拼接 时 ， 都 会 
造成 解码 器 不 同 程度 的 失 步 。 

H. 264/AVC 为 了 顺应 视频 流 的 带宽 自 适 应 性 和 抗 误 码 性 能 的 要 求 ， 定 义 了 SP (Switching P Pic- 
ture) 和 SI (Switching I Picture) 两 种 新 的 图 像 帧 类 型 ， 统 称 为 切换 帧 ， 以 对 网 络 中 的 各 种 传输 速 
率 进 行 响应 ， 从 而 最 大 限度 地 利用 现 有 资源 ， 对 抗 因 缺少 参考 帧 引起 的 解码 问题 。 

SP 帧 编码 的 基本 原理 同 了 帧 类 似 ， 都 是 应 用 运动 补偿 预测 来 去 除 时 间 宛 余 ， 不 同 之 处 在 于 ， 
SP 帧 编码 允许 在 使 用 不 同 参考 帧 网 像 的 情况 下 重建 相同 的 帧 ， 因 而 在 许多 应 用 中 可 以 取代 工 帧 ， 
提高 压缩 效率 ， 降 低 带宽 。SI 帧 的 编码 方式 则 类 似 于 工 帧 ， 都 是 利用 空间 预测 编码 ， 它 能 够 同样 
地 重建 一 个 对 应 的 SP 帧 。 利 用 切换 帧 的 这 一 特性 ， 编 码 流 在 不 插入 工 帆 的 情况 下 能 够 同样 实现 码 
流 的 随机 切换 功能 ， 即 SP 帧 可 以 在 码 流 切换 (Bitstream Switching)、 拼 接 (Splicing)、 随 机 接 入 
(Random Access)、“ 快 进 / 快 退 ” 等 应 用 中 取代 I 帧 ， 同 时 编码 效率 比 使 用 I 帧 时 有 所 提高 。 男 外 
通过 SP、SI 帧 的 使 用 还 能 够 实现 一 定 的 差错 复原 功能 ， 当 由 于 当前 解码 帧 的 参考 帧 出 错 而 无 法 
正确 完成 解码 时 ， 可 通过 SP 帧 来 实现 解码 工作 ， 编 码 器 将 根据 参考 帧 的 正确 与 和 否 来 决定 SP、SI 
顺 的 传送 ， 这 样 通过 使 用 SPZSI 帧 ， 在 获得 编码 效率 提高 的 同时 ， 也 加 强 了 码 流 的 抗 误 码 能 
因此 ， 根 据 当 前 网 络 状况 ， 通 过 使 用 SP 和 SI 切换 帧 ， 就 可 实现 不 同 传输 速率 、 不 同 质量 的 视频 
流 间 的 切换 ， 从 而 适应 视频 数据 在 各 种 传输 环境 下 的 应 用 。 

SP 帧 分 为 主 SP 帧 (Primary SP- Frame ) 


和 次 SP 帧 (Secondary SP- Frame ) 。 前 者 的 
参考 帧 和 当前 编码 帧 属于 同一 个 码 流 ， 而 
后 者 则 不 属于 同一 个 码 流 。 与 此 同时 ， 如 
图 6-14 所 示 : 主 SP 帧 作为 切换 插入 点 ， 
不 切换 时 ， 码 流 进行 正常 的 编码 传输 ， 而 
切换 时 ， 次 SP 帧 取代 主 SP 帧 进行 传输 。 
图 6-14 所 示 为 码 流 切换 SP 编码 顺序 
图 的 示例 。 编 码 器 的 输入 顺序 为 A,，A,， 区 
B,，B,，B,; 编码 器 的 输出 序列 为 A,， 






























































































































































A  ，AB,，B,，B, 。 可 以 看 出 ， 编 码 器 输 
入 B, 帧 时 ， 编 码 器 输出 次 SP 帧 AB, 的 码 图 6-14 ” 码 流 切换 SP 编码 顺序 图 


流 。AB, 帧 的 码 流 输入 解码 器 后 ， 解 码 需 
帧 缓存 以 A, 的 重 构 值 为 参考 ， 解 出 B, 后 ，B, ，B, 依 次 以 前 面 的 帧 为 参考 帧 得 以 正确 顺序 解码 。 
SI/SP 帧 的 应 用 非常 广泛 ， 它 可 以 解决 视频 流 应 用 中 终端 用 户 可 用 带宽 不 断 变化 、 不 同 内 容 
节目 拼接 、 快 进 快 退 以 及 错误 恢复 等 问题 。 下 面 对 其 应 用 进行 简单 介绍 。 
1. 码 流 切 换 
由 于 网 络 带 宽 的 不 断 变 化 ， 视 频 业 务 的 实时 性 得 不 到 保证 ， 因 此 需要 各 种 技术 来 保证 码 流 
适应 带宽 的 不 断 变化 。 实 现 带宽 自 适 应 的 方法 之 一 就 是 设置 多 组 不 同 的 信 源 编码 参数 对 同一 视 
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频 序列 分 别 进行 压缩 ， 从 而 生成 适应 不 同 质量 和 带宽 要 求 的 多 组 相互 独立 的 码 流 。 这 样 ， 视 频 服 
务 器 只 需 在 不 同 的 码 流 间 切换 ， 以 适应 网 络 有 效 带 宽 的 不 断 变化 。 
设 |P，,，P，，P, ,上 和 |P,，，， 主 SP 
P,,，P,,, ,| 分 别 是 同一 视频 序列 采用 
了 不 同 的 信 源 编码 参数 编码 所 得 到 的 两 个 
视频 流 ， 如 图 6-15 所 示 。 由 于 编码 参数 
不 同 ， 两 个 码 流 中 同一 时 刻 的 帧 ， 如 次 SP 
P, ，, 和 了 ，, 并 不 完全 一 样 。 假 设 服 务 器 


首先 发 送 视频 流 P, ， 到 时 刻 n 再 发 送 视 频 

流 P, ， 则 解码 端 接收 到 视频 流 为 |P 

Easy Db, 9 Pb,, n+1 9 P， Be 在 这 种 情况 

下 ， 由 于 接收 的 P, ,使 用 的 参考 帧 应 该 是 主 SP 

P,，; 而 不 是 P ，,， 所 以 P，, 帧 就 不 能 完 图 6-15” 码 流 切换 示意 图 

全 正确 地 解码 。 在 以 往 的 视频 压缩 标准 

中 ， 实 现 码 流 间 的 切换 功能 时 ， 确 保 完全 正确 解码 的 前 提 条 件 是 切换 帧 不 得 使 用 当前 帧 之 前 的 
帧 信息 ， 即 只 使 用 I 帧 。 然 而 通过 使 用 SP 帧 技术 ， 可 以 从 第 一 个 码 流 的 主 SP 帧 切换 到 男 一 个 
码 流 ， 同 时 需要 发 送 次 SP 帧 一 一 S), ,。 

2. 拼接 与 随机 接 入 

上 述 码 流 切换 属于 同一 图 像 序 列 、 


ni 










































































不 同 编码 参数 压缩 编码 的 流 之 间 的 切 二 
换 。 然 而 ， 实 际 的 码 流 切 换 的 应 用 并 不 
单单 如 此 。 例 如 ， 关 注 同一 事件 而 处 于 








切换 和 电视 节目 中 插入 广告 等 ， 这 就 
涉及 拼接 不 同 图 像 序列 生成 码 流 的 问 


题 。 如 图 6-16 所 示 ， 由 于 各 个 码 流 来 
自 于 不 同 的 信 源 ， 帧 间 缺 乏 相关 性 ， 切 


换 点 处 的 次 帧 如 有 果 仍 采用 帧 间 预 测 的 次 


























不 同 视角 的 多 台 摄 像 机 的 输出 码 流 间 的 





SP 帧 ,那么 编码 效率 就 不 会 高 ， 而 应 主 SP 
采用 空间 预测 的 SI 帧 一 —S,, ,。 图 6-16 SI 帧 进行 拼接 和 随机 存 取 
3. 错误 恢复 主 SP 


采用 不 同 的 参考 帧 预测 ， 可 以 获 四 四 加 国 图 
得 同一 帧 的 多 个 SP 帧 ， 利 用 这 种 特性 
可 以 增强 错误 恢复 的 能 力 。 如 图 6-17 
所 示 ， 正 在 进行 视频 流传 输 的 比特 流 ~ 


中 的 一 个 帧 P ,_, 无 法 正确 解码 。 得 到 


用 户 端 反馈 的 错误 报告 后 ， 服 务 器 就 
可 以 发 送 其 后 最 邻近 主 SP 帧 的 一 个 次 
SP 帧 一 -S。， 以 避免 该 错误 影响 更 


多 后 续 帧 ，S，, 帧 的 参考 帧 是 已 经 正 主 SP 
确 解 码 的 帧 。 图 6-17 SP 帧 进行 错误 恢复 
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6.3.6 H.264/AVC 的 其 余 特 征 


1. 自 适 应 帧 / 场 编 码 

H. 264 既 支 持 逐 行 扫描 的 视频 序列 ， 也 支持 隔行 扫描 的 视频 序列 。 在 隔行 扫描 帧 中 ， 当 有 移 
动 的 对 象 或 摄像 机 移动 时 ， 与 逐 行 相 比 ， 两 个 相 邻 行 的 空间 相关 性 减弱 ， 这 种 情况 下 对 每 场 分 别 
进行 压缩 更 为 有 效 。 为 了 达到 高 效率 ，H 264/AVC 在 对 隔行 扫描 帧 进行 编码 时 ， 有 以 下 3 种 可 

1) 帧 编码 模式 : 组 合 两 场 构成 一 个 完整 帧 进行 编码 。 

2) 场 编 码 模式 : 两 场 分 别 进行 编码 。 

3) 宏 块 级 自 适 应 帧 / 场 (Macro- 
block level Adaptive Frame/ Field, MBAFF) 
编码 : 组 合 两 场 构成 一 个 完整 帧 ， 划 分 垂 
直 相 邻 的 “ 宏 块 对 ” (16 x32) 成 两 个 帧 3 六 
模式 宏 块 或 场 模式 宏 块 ， 再 对 每 个 宏 块 对 
进行 编码 ， 如 图 6-18 所 示 。 16 = 

前 两 种 编码 模式 称 为 图 像 级 自 适应 
帧 / 场 ( Picture level Adaptive Frame/ ee 人 
Field，PAFF) 编码 。 如 果 图 像 由 运动 图 6-18 ” 宏 块 级 自 适应 帧 / 场 编码 
区 和 非 运动 区 混合 组 成 ， 非 运动 区 用 帧 模式 、 运 动 区 用 场 模式 是 最 有 效 的 编码 方法 。 因 此 每 个 垂 
直 宏 块 对 (16 x32) 可 独立 选择 帧 / 场 模 式 。 对 于 帧 模式 “ 宏 块 对 ”， 每 个 宏 块 包含 帧 行 ， 对 于 
场 模式 “ 宏 块 对 ”， 顶 部 宏 块 包含 顶 场 行 ， 底 部 宏 块 包含 底 场 行 。 

2. 条 带 、 条 带 组 和 灵活 的 宏 块 排序 

H. 264 的 视频 编码 层 (VCL) 仍然 采用 分 层 的 码 流 结构 。 一 帧 图 像 由 若干 个 条 带 (slice) 组 
成 ， 每 个 条 带 包含 一 系列 的 宏 块 (MB ) 。H. 264 并 没有 给 出 每 个 条 带 包 含 多 少 宏 块 的 规定 ， 即 每 
个 条 带 所 包含 的 宏 块 数目 是 不 固定 的 。 宏 块 是 独立 的 编码 单位 ， 而 条 带 在 解码 端 可 以 被 独立 解 
码 。 条 带 是 最 小 的 独立 解码 单元 ， 不 同 条 带 的 宏 块 不 能 用 于 自身 条 带 中 进行 预测 参考 ， 这 有 助 于 
防止 编码 数据 的 错误 扩散 。 

根据 编码 方式 和 作用 的 不 同 ，H. 264 定义 了 以 下 的 条 带 类 型 。 

1) I 条 带 : I 条 带 内 的 所 有 宏 块 均 使 用 帧 内 编码 。 

2) P 条 带 : 除了 可 以 采用 帧 内 编码 外 ，P 条 带 中 的 宏 块 还 可 以 采用 预测 编码 ,但 只 能 采用 
一 个 前 向 运动 矢量 。 

3) B 条 带 : 除了 可 以 采用 P 条 带 的 所 有 编码 方式 外 ，B 条 带 的 宏 块 还 可 以 采用 具有 两 个 运 
动 矢量 的 双向 预测 编码 。 

4) SP 条 带 : 切换 的 P 条 带 。 目 的 是 在 不 引起 类 似 插 入 工 条 带 所 带 来 的 数码 率 开 销 的 情况 
下 ， 实 现 码 流 间 的 切换 。SP 条 带 采 用 了 运动 补偿 技术 ,适用 于 同一 内 容 不 同 质量 的 视频 码 流 间 
的 切换 。 

5) SI 条 带 : 切换 的 1 条 带 。SI 条 带 采 用 了 帧 内 预测 技术 代替 SP 条 带 的 运动 补偿 技术 ， 用 于 
不 同 内 容 的 视频 码 流 间 的 切换 。 

H. 264 给 出 了 两 种 产生 条 带 的 方式 : 一 种 是 按照 光栅 扫描 顺序 ( 即 从 左 往 右 、 从 上 至 下 的 顺 
序 ) 把 一 系列 的 宏 块 组 成 条 带 ; 另 一 种 是 通过 宏 块 分 配 映射 (Macroblock Allocation Map) 技术 ， 
把 每 个 安 块 分 配 到 不 按 扫描 顺序 排列 的 条 带 中 。 后 一 种 方式 ， 即 支持 灵活 的 宏 块 排序 (Flexible 


第 6 章 |185 












































宏 抉 对 

































mm 












































































































































为 














l= 


Macroblock Ordering，FMO) ， 是 H. 264 标准 的 一 大 特色 。 使 用 FMO 时 ,根据 宏 块 到 条 带 的 映射 
图 ， 把 所 有 的 宏 块 分 到 了 多 个 条 带 组 (Slice Group ) 。 

在 图 像 内 部 的 预测 机 制 中 ， 例 如 ， 帧 内 预测 或 运动 矢量 预测 ， 仅 允许 采用 同一 个 条 带 组 里 的 
空间 相 邻 的 宏 块 ， 可 以 把 误 码 限制 在 一 个 条 带 内 ， 防 止 其 扩散 ， 并 利用 周围 正确 解码 条 带 的 宏 块 
来 恢复 或 掩盖 这 些 错误 ， 从 而 达到 抗 误 码 效果 。 

条 带 组 的 组 成 方式 可 以 是 矩形 方式 或 规则 的 分 散 方式 (例如 ,棋盘 状 ) ， 也 可 以 是 完全 随机 
的 分 散 方式 。 

如 图 6-19 所 示 ， 所 有 的 宏 块 被 分 属于 条 带 组 0 和 条 带 组 1， 其 
中 灰色 部 分 表示 条 带 组 0， 白 色 部 分 表示 条 带 组 1。 当 条 带 组 0 中 
的 宏 块 丢失 时 ， 因 为 其 周围 的 宏 块 都 属于 其 他 条 带 的 宏 块 ， 利 用 
邻 域 相关 性 ， 条 带 组 1 中 的 宏 块 的 某 种 加 权 可 用 来 代替 条 带 组 0 中 
相应 的 宏 块 。 这 种 错误 掩盖 机 制 可 以 明显 地 提高 抗 误 码 性 能 。 

在 编码 完 条 带 组 0 中 的 所 有 安 块 后 ， 才 能 开始 对 条 带 组 1 进 
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支持 将 一 帧 划分 为 8 个 条 带 组 。 

3. 数据 分 区 

由 于 码 流 中 的 某 些 语法 单元 比 其 他 语法 单元 更 重要 ， 例 如， 变换 系数 的 丢失 只 影响 该 系数 
所 属 的 块 ， 而 图 像 尺 寸 和 量化 系数 等 头 信 息 对 整个 图 像 甚至 整个 视频 序列 的 意义 较 大 。 数 据 分 
割 (Data Partition，DP) 可 以 根据 语法 单元 的 重要 程度 对 其 提供 不 等 保护 ， 对 一 个 条 带 (Slice) 
中 的 宏 块 数据 重新 进行 组 合 ， 把 宏 块 语义 相关 的 数据 组 成 一 个 分 区 ， 将 一 个 条 带 中 的 数据 存放 
在 3 种 不 同类 型 的 分 区 (A、B、C 型 分 区 ) 中 ， 每 个 分 区 分 别 装 入 独立 的 NAL 包 中 。 

(1) A 型 分 区 

A 型 分 区 包含 帧 头 信息 和 条 带 中 每 个 宏 块 的 头 信息 ， 如 宏 块 类 型 、 量 化 参数 、 运 动 矢量 等 。 
如 果 A 型 分 区 数据 丢失 ， 其 他 两 个 分 区 (B、C 型 分 区 ) 也 无 效 ， 则 很 难 或 者 不 能 重建 该 条 带 ， 
因此 A 型 分 区 是 最 重要 的 ， 而 且 对 传输 误差 很 敏感 。 

(2) B 型 分 区 

B 型 分 区 包含 帧 内 编码 块 模式 及 其 变换 系数 和 SI 条 带 宏 块 的 编码 数据 。 由 于 后 续 解 码 帧 是 
以 I 帧 的 数据 作为 参考 数据 ， 此 部 分 数据 丢失 的 话 将 导致 错误 累积 ， 并 对 后 续 帧 的 重 构图 像 质量 
产生 严重 的 影响 。B 型 分 区 要 求 给 定 条 带 的 A 型 分 区 有 效 。 

(3) C 型 分 区 

C 型 分 区 包含 帧 间 编 码 块 模式 及 其 变换 系数 的 编码 数据 。 一 般 情况 下 它 是 编码 条 带 的 最 大 分 
区 ， 因 为 大 部 分 视频 帧 都 是 使 用 P 帧 编码 。 相 对 而 言 ，C 型 分 区 是 最 不 重要 的 ， 它 同样 要 求 给 定 
条 带 的 A 型 分 区 有 效 。 

当 使 用 数据 分 区 时 ， 源 编码 器 把 不 同类 型 的 分 区 安排 在 3 个 不 同 的 缓冲 器 中 ， 同 时 条 带 的 大 
小 必须 进行 调整 以 保证 小 于 MTU (Maximum Transmission Unit， 最 大 传输 单元 ) 长 度 ， 因 此 由 编 
码 器 而 不 是 NAL 来 实现 数据 分 区 。 在 解码 器 上 ， 所 有 分 区 用 于 信息 重建 。 这 样 ， 如 果 帧 内 或 帧 
间 信 息 丢失 了 ， 有 效 的 帧 头 信息 仍 能 用 来 提高 错误 掩盖 效果 ， 即 当 宏 块 类 型 和 运动 矢量 有 效 时 ， 
仍 可 获得 一 个 较 高 的 图 像 重建 质量 ， 而 仅仅 丢失 了 细节 信息 。 另 外 ， 可 以 根据 不 同类 型 的 数据 分 
区 的 重要 性 不 同 ， 采 用 不 同等 级 的 保护 措施 ， 从 而 适应 不 同 的 网 络 环境 。 

4. 参考 图 像 的 管理 

在 H. 264 标准 中 ,已 编码 图 像 存储 在 编码 右 和 解码 髓 的 参考 缓冲 区 ( 即 解码 图 像 缓冲 区 ) ， 
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并 有 相应 的 参考 图 像 列表 list0， 以 供 帧 间 宏 块 的 运动 补偿 预测 使 用 。 对 B 条 带 预测 而 言 ，list0 包 
含 当 前 图 像 的 前 面 和 后 面 两 个 方向 的 图 像 ， 并 以 显示 次 序 排列 ; 也 可 同时 包含 短期 和 长 期 参考 
图 像 。 这 里 ,已 编码 图 像 为 编码 器 重建 的 标 为 短期 图 像 刚刚 编码 的 图 像 ， 并 由 其 帧 号 标定 ; 长 期 
参考 图 像 是 较 早 的 图 像 ， 由 LongTermPicNum 标定 ， 保 存在 解码 图 像 缓 冲 区 中 ， 可 直接 被 代 奉 或 
删除 。 

当 一 帧 图 像 在 编码 器 被 编码 重建 或 在 解码 器 被 解码 时 ， 它 存放 在 解码 图 像 缓 冲 区 中 并 标定 
为 以 下 各 种 图 像 中 的 一 种 : 

1)“ 非 参考 ” ， 不 用 于 进一步 的 预测 。 

2) 短期 参考 图 像 。 

3) 长 期 参考 图 像 。 

4) 直接 输出 显示 。 

list0 中 的 短期 参考 图 像 是 按 PieNum 从 高 到 低 的 顺序 排列 ， 长 期 参考 图 像 是 按 LongTermPic- 
Num 从 低 到 高 的 顺序 排列 。 当 新 的 图 像 加 在 短期 列表 的 位 置 0 时 ， 剩 余 的 短期 图 像 索 引号 依次 
增加 。 当 短期 和 长 期 图 像 导 达到 参考 帧 的 最 大 数 时 ， 最 高 索引 号 的 图 像 被 移出 缓冲 区 ， 即 实现 滑 
动 窗 内 存 控制 。 该 操作 使 得 编码 器 和 人 解码 器 保持 N 帧 短期 参考 图 像 ， 其 中 包含 一 帧 当前 图 像 和 
(YX-1) 帧 已 编码 图 像 。 
由 编码 需 发 送 的 自 适 应 内 存 控制 命令 来 管理 短期 和 长 期 参考 图 像 索 引 。 这 样 ， 短 期 图 像 才 
可 能 被 指定 长 期 帧 索引 ， 短 期 或 长 期 图 像 才 可 能 标定 “ 非 参考 "” 。 编 码 器 从 list0 中 选择 参考 图 
像 ， 进 行 帧 间 宏 块 编码 ， 而 该 参考 图 像 的 选择 由 索引 号 标志 ， 索 引 0 对 应 于 短期 部 分 的 第 一 帧 ， 
长 期 帧 索引 开始 于 最 后 一 个 短期 帧 。 
参考 图 像 缓 冲 区 通常 由 编码 器 发 送 的 IDR (Instantaneous Decoder Refresh， 即 时 解码 器 刷新 ) 
编码 图 像 刷新 ，IDR 图 像 一 般 为 1 帧 或 SI 帧 。 当 接收 到 IDR 图 像 时 ， 人 解码 器 立即 将 缓冲 区 的 图 像 
标 为 “ 非 参 考 ”。 后 继 的 帧 进行 无 图 像 参 考 编码 ， 通 常 视频 序列 的 第 一 帧 都 是 IDR 图 像 。 

S. 参数 集 

参数 集 是 H. 264/AVC 标准 中 的 一 个 新 概念 ， 是 一 种 通过 改进 视频 码 流 结构 增强 错误 恢复 能 
力 的 方法 。 众 所 周知 ， 一 些 关键 信息 比特 的 丢失 ( 如 序列 和 图 像 的 头 信 息 ) 会 造成 解码 的 严重 
负面 效应 ， 而 H. 264 把 这 些 关键 信息 分 离 出 来 ， 和 凭借 参数 集 的 设计 ， 确 保 在 易 出 错 的 环境 中 能 
正确 地 传输 。 在 H. 264 中 有 以 下 两 类 参数 集 。 

1) 序列 参数 集 (Sequence Paramater Set，SPS) : 包含 的 是 针对 一 连续 编码 视频 序列 的 参数 ， 
如 标识 符 seq_parameter_set_id 、 帧 率 及 POC 的 约束 、 参 考 帧 数目 、 解 码 图 像 大 小 和 帧 / 场 编码 模 
式 选 择 标 识 等 。 视 频 序 列 定义 为 两 个 即时 解码 器 刷新 (IDR) 图 像 间 的 所 有 图 像 。 

2) 图 像 参数 集 (Picture Parameter Set，PPS) : 对 应 的 是 一 个 序列 中 某 一 帧 图 像 或 者 某 几 帧 
图 像 ， 其 参数 有 标识 pic_parameter_set_id、 可 选 的 seq_parameter_set_id、 炉 编码 模式 选择 标识 、 
条 带 组 数目 、 初 始 量化 参数 和 去 方块 效应 滤波 系数 调整 标识 等 。 

通常 ，SPS 和 PPS 在 条 带 的 头 信息 和 数据 解码 前 传送 至 解码 器 ， 且 每 个 条 带 的 头 信息 对 应 一 
个 pic_parameter_set_id，PPS 被 激活 后 一 直 有 效 到 下 一 个 PPS 被 激活 ; 类 似 地 ， 每 个 SPS 对 应 一 
个 seq_parameter_id，SPS 被 其 激活 以 后 将 一 直 有 效 到 下 一 个 SPS 被 激活 。 

多 个 不 同 的 序列 和 图 像 参 数 集 存 储 在 解码 器 中 ， 编 码 器 依据 每 个 编码 条 带 的 头 部 的 存储 位 
置 来 选择 适当 的 参数 集 ， 图 像 参 数 集 (PPS) 本 身 也 包括 使 用 的 序列 参数 集 (SPS) 参考 信息 。 

6. NAL 单元 传输 和 存储 

H. 264 输出 码 流 包含 一 系列 的 NAL 单元 。 作 为 NAL 层 的 基本 处 理 单元 ， 一 个 NAL 单元 是 一 
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个 包含 一 定语 法 元 素 的 可 变 长 字 节 符号 串 ， 它 可 以 携带 一 个 编码 条 带 ，A、B、C 型 数据 分 割 ， 
或 者 一 个 序列 参数 集 (SPS) 或 图 像 参数 集 (PPS)。 每 个 NAL 单元 由 一 个 字 节 的 头 和 一 个 包含 
可 变 长 编码 符号 的 字 节 组 成 。 头 部 含 三 个 定 长 的 字段 ; NAL 单元 类 型 (5bit 的 T 字 段 )，NAL- 
REFERENCE-IDC (2bit 的 R 字段 ) 和 隐藏 比特 位 (下 ) 。T 字段 代表 NAL 单元 的 32 种 不 同类 型 ， 
类 型 1~12 是 了 H 264 定义 的 基本 类 型 ， 类 型 24 ~31 用 于 标志 在 RTP 封装 中 NAL 单元 的 聚合 和 拆 
分 ， 其 他 值 保留 。R 字段 用 于 标志 在 重建 过 程 中 的 重要 性 ， 值 为 0 表示 没有 用 于 预测 参考 ， 值 越 
大 ， 用 于 预测 参考 的 次 数 越 多 。F 比特 默认 为 0， 当 网 络 检测 到 NAL 单元 中 存在 比特 错误 (在 无 
线 网 络 环 境 易 出 现 ) 时 ,可 将 其 置 为 1， 主 要 适用 于 异 质 网 络 环境 (如 有 线 无 线 相 结合 的 环境 ) 。 

H. 264 标准 并 未 定义 NAL 单元 的 传输 方式 ,但 实际 中 根据 不 同 的 传输 环境 其 传输 方式 还 是 
存在 一 定 的 差异 。 如 在 分 组 传输 网 络 中 ， 每 个 NAL 单元 以 独立 的 分 组 传输 ， 并 在 解码 之 前 进行 
重新 排序 。 在 电路 交换 传输 环境 中 ， 传 输 之 前 需 在 每 个 NAL 单元 之 前 加 上 起 始 前 级 码 ， 使 解码 
器 能 够 找到 NAL 单元 的 起 始 位 置 。 

在 一 些 应 用 中 ， 视 频 编码 需要 和 音频 及 相关 信息 一 起 传输 或 存储 ， 这 就 需要 一 些 实现 的 机 
制 ， 目 前 通常 用 的 是 RTPAUDP 协议 协同 实现 。MPEG-2 System 部 分 的 一 个 改进 版 本 规定 了 H. 264 
视频 传输 机 制 ， 而 ITU-T H 241 定义 了 用 H. 264 标准 连接 H. 32X 多 媒体 终端 。 对 要 求 视 频 、 音 
频 及 其 他 信息 一 起 存储 的 流 媒体 回放 、DVD 回放 等 应 用 ， 将 推出 MPEG4 System 的 改进 版 本 ， 其 
定义 了 H. 264 标准 编码 数据 和 相关 媒体 流 是 如 何以 ISO 的 媒体 文件 格式 存储 的 。 


6.3.7 H.264/AVC 的 类 和 FRExt 增加 的 关键 算法 


“类 ”( Profle， 也 称 为 “档次 ") 定义 一 组 编码 工具 和 算法 ， 用 于 产生 一 致 性 的 比特 流 ; 
“级 ”( Level) 用 于 限定 比特 流 的 部 分 关键 参数 。 

符合 某 个 指定 类 的 H. 264 解码 器 必须 支持 该 类 定义 的 所 有 特性 ;而 编码 器 则 不 必要 求 支持 
这 个 类 所 定义 的 所 有 特性 ， 但 必须 提供 符合 标准 规定 的 一 致 性 的 码 流 ， 使 支持 该 类 的 解码 器 能 
够 实现 解码 。 

最 初 的 H. 264 标准 定义 了 3 个 类 : 基本 类 (Baseline Profile) 、 主 类 (Main Profile) 和 扩展 类 
(Extension Profile) ， 以 适用 于 不 同 的 应 用 。 

基本 类 降低 了 计算 复杂 度 及 系统 内 存 需 求 ， 而 且 针 对 低 时 延 进行 了 优化 。 由 于 B 帧 的 内 在 
时 延 以 及 CABAC 的 计算 复杂 性 ， 因 此 基本 类 不 包括 这 两 者 。 基 本 类 非常 适合 可 视 电 话 、 视 频 会 
议 等 交互 式 通信 和 领域 以 及 其 他 需要 低 成 本 实时 编码 的 应 用 。 

主 类 采用 了 多 项 提高 图 像 质量 和 增加 压缩 比 的 技术 措施 ， 但 其 要 求 的 处 理 能 力也 比 基 本 类 
高 许多 ， 因 此 使 其 难以 用 于 低 成 本 实时 编码 和 低 时 延 应 用 。 主 类 主要 面向 高 画 质 应 用 ， 如 
SDTV、HDTV 和 DVD 等 广播 电视 领域 。 

扩展 类 适用 于 对 容错 ( Error Resilient) 性 能 有 较 高 要 求 的 流 媒 体 应 用 场合 ， 可 用 于 各 种 网 络 
的 视频 流传 输 。 

后 来 ， 由 于 VC-1 在 高 清晰 度 影片 上 的 表现 出 色 ， 导 致 H. 264 在 DVD 论坛 与 蓝光 光碟 协会 
(Blu-ray Dise Association) 的 高 清晰 度 DVD 影片 品质 测试 中 被 挫败 ， 甚 至 被 Blu-ray 阵营 所 拒 用 。 
其 主要 原因 是 H. 264 使 用 较 小 块 的 变换 与 无 法 调整 的 量化 矩阵 ， 造 成 不 能 完整 保留 影像 的 高 频 
细节 信息 ， 比 如 说 ， 在 1080iP 影片 中 常会 故意 使 用 的 六 Im Effect 就 会 被 H.264 所 消除 。 为 了 进 
一 步 扩大 H. 264 的 应 用 范围 ， 使 其 适应 高 保 真 视频 压缩 的 应 用 ，JVT 于 2004 年 7 月 对 耳 264 做 
了 重要 的 补充 扩展 ， 称 为 FRExt (Fidelity Range Extensions) 。 

H. 264 标准 第 一 版 支持 的 源 图 像 为 每 像素 8bit， 且 采样 格式 仅 限 于 4 : 2 : 0; 而 新 扩展 的 
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FRExt 部 分 则 扩大 了 标准 的 应 用 范围 ， 如 专业 级 的 视频 应 用 、 高 分 辩 率 /高 保 真 的 视频 压缩 等 。 
FRExt 对 H. 264 的 改善 主要 在 以 下 方面 。 

。 进一步 引入 一 些 先进 的 编码 工具 ， 提 高 了 压缩 效率 。 

。 视频 源 的 每 个 像素 的 采样 值 均 可 超过 8bit， 最 高 可 达 12bit。 

。 增加 了 4 :2 :2 与 4 :4 :4 的 采样 格式 。 

。 文 持 更 高 的 数码 率 ， 更 高 的 图 像 分 辨 力 。 

。 针 对 特定 高 保 真 影像 需求 ， 对 影像 进行 无 损 压 缩 。 

。 支持 基于 RGB 格式 的 压缩 ， 同 时 避免 了 色 度 空间 转换 的 舍 入 误差 。 

FRExt 增加 了 以 下 4 个 新 的 类 。 

。High Profile (HP) : 支持 8bit、4 : 2 : 0 采样 格式 。 

。High 10 Profile (Hil0P): 支持 10bit、4 : 2 : 0 采样 格式 。 

。 High 4 : 2 : 2 Profile (H422P) : 文 持 10bit、4 : 2 : 2 采样 格式 。 

。 High 4 : 4 : 4 Profile (H444P): 支持 12bit、4 : 4 : 4 采样 格式 、 无 损 编码 与 多 种 色彩 空间 的 
编码 。 

如 图 6-20 所 示 ， 这 4 个 新 的 
类 如 同性 能 的 和 藤 套 子 集 一 样 被 创 
立 ， 它 们 全 都 继承 了 主 类 的 工具 
集 ， 就 像 它们 的 公共 交集 ; 而 高 





































































8X8 帧 内 预测 12bit 采 样 
类 High Profile, HP) 还 额外 地 8X 8 整数 变换 > 
包含 了 所 有 能 够 提高 编码 效率 的 主 类 】 量化 矩阵 无 损 压 缩 





其 / 音色 图 像 格式 
HP 


主要 的 新 工具 。 相 对 于 主 类 
(MP) ， 这 些 工 具 在 算法 复杂 度 上 
只 是 稍 有 提高 。 因 此 ， 在 数字 视 
频 应 用 中 , 在 4 : 2 : 0 采样 格式 
中 使 用 8bit 视频 的 高 类 有 可 能 代 图 6-20 ”FRExt 编码 工具 
替 主 类 。 

增加 了 高 类 (HP) 之 后 ，H. 264 各 类 的 关系 如 图 6-21 所 示 ， 具 体 所 包含 的 编码 工具 如 下 : 

1) 所 有 类 的 共同 部 分 : I 条 带 、P 条 带 、CAVLC。 

2) 基本 类 (Baseline Profile) : FMO、 任 意 宏 块 条 顺序 (Arbitrary Slice Order，ASO ) 、 元 余 
带 

3) 主 类 (Main Profile ) : 
B 条 带 、 加 权 预 测 、CABAC、 
隔行 编码 。 

4) 扩展 类 ( Extended Pro- 
file) : 包含 基本 类 的 所 有 部 分 、 
SP 条 带 、SI 条 带 、 数 据 分 区 、 
B 条 带 、 加 权 预 测 。 
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自 适应 变换 块 。， 
量化 矩阵 ， 





a FMO 
5 ) 周 类 ( High Profile ) 村 ASO 


包含 主 类 的 所 有 部 分 、 自 适应 


的 变换 块 大 小 (4 x4 或 8 x8 
整数 变换 ) 、 量 化 矩阵 。 





图 6-21 H.264 中 4 个 类 的 关系 
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6.4 H.265/HEVC 视频 编码 标准 





自 2003 年 3 月 H.264/AVC 视频 编码 标准 被 推出 以 后 ， 在 业界 受到 了 广泛 关注 ， 无论 是 编码 
效率 、 图 像 质量 还 是 网 络 的 适应 性 ， 都 达到 了 令 人 满意 的 效果 。 然 而 ， 随 着 网 络 技术 和 硬件 设备 












































的 快速 发 展 ， 人 们 对 视频 编码 的 要 求 也 在 不 断 地 提高 ， 尤 其 是 对 高 清 分 辩 率 甚至 超 高 清 分 辩 率 视 








频 的 需求 ， 现 有 的 视频 编码 技术 已 经 远 远 不 能 满足 消费 者 的 需求 。 以 色 度 分 辨 率 最 低 的 4:2 :0 采 








样 格式 为 例 ，4K 模式 超 高 清 数字 电视 信号 图 像 的 原始 数据 率 为 3840 x 2160 像素 / 帧 x 12bit/ 像 素 x 
30 帧 /$， 即 约 为 2.78Gbit/s，8K 模式 超 高 清 数字 电视 信号 图 像 的 原始 数据 率 约 为 11Gbit/s。 如 采 
用 H.264/AVC 视频 压缩 方法 ， 可 将 4K 模式 原始 数据 率 压 缩 至 20Mbit/s 以 内 ,但 这 对 目前 的 带 
宽 要 求 仍 然 很 高 ， 因 此 必须 研究 新 的 视频 压缩 标准 对 原始 数据 进行 高 效 的 压缩 。 为 此 , ITU-T 视 
频 编 码 专家 组 (VCEG) 和 ISO/IEC 运动 图 像 专 家 组 ( MPEG) 联合 成 立 了 视频 编码 协作 小 组 
(JCT-VC) ， 致 力 于 研制 下 一 代 视 频 编码 标准 HEVC ( High Efficiency Video Coding) 。 


6.4.1 H.265/HEVC 视频 编码 原理 





高 效 视频 编码 (HEVC) 标准 
仍然 采用 了 与 先前 的 视频 编码 标 
准 H.261、MPEG-2、H 263 以 及 
H. 264/AVC 一 样 的 混合 编码 的 基 
本 框架 ， 如 图 6-22 所 示 。 其 核心 
编码 模块 包括 帧 内 预测 、 基 于 运 
动 估 计 与 补偿 的 帧 间 预 测 、 变 换 
与 量化 、 环 路 滤波 、 炉 编码 和 编 
码 器 控制 等 。 编 码 器 控制 模块 根 
据 视 频 帧 中 不 同 图 像 块 的 局 部 特 
性 ， 选 择 该 图 像 块 所 采用 的 编码 
模式 〈 帧 内 或 帧 间 预 测 编码 ) 。 对 
帧 内 预测 编码 的 块 进行 频 域 或 空 
域 预测 ， 对 帧 间 预 测 编码 的 块 进 
行 运动 补偿 预测 ， 预 测 的 残 差 再 
通过 变换 和 量化 处 理 形 成 残 差 系 
数 ， 最 后 通过 人 箭 编码 需 生 成 最 终 
的 码 流 。 为 避免 预测 误差 的 累积 ， 

















换 和 量化 后 的 残 差 系数 经 过 反 量 化 和 反 变 换 重建 残 差 信号 ， 再 与 预测 的 参考 信号 相 加 得 到 重建 
的 图 像 。 值 得 注意 的 是 ， 对 于 帧 内 预测 ， 参 考 信号 是 当前 帧 中 已 编码 的 块 ， 因 此 是 未 经 过 环 路 滤 























编码 器 控制 





























图 6-22 HEVC 的 基本 编码 框架 











帧 内 或 帧 间 预 测 的 参考 信号 是 通过 编码 端的 解码 模块 得 到 。 变 

















波 的 重建 图 像 ， 而 对 于 帧 间 预 测 ， 参 考 信号 是 解码 重 构图 像 缓 存 区 中 的 参考 帧 ， 是 经 过 环 路 滤波 


的 重建 图 像 。 环 路 滤波 的 作用 是 去 除 分 块 处 理 所 带 来 的 块 效应 ， 提 高 解码 图 像 的 质量 。 
针对 目前 视频 信号 分 辩 率 不 断 提 高 以 及 并 行 处 理 的 普及 应 用 ，HEVC 定义 了 灵活 的 基于 四 又 

















树 结构 的 编码 单元 划分 ， 同 时 对 各 个 编码 模块 进行 了 优化 与 改进 ， 并 增加 了 一 些 新 的 编码 工具 ， 

















其 中 具有 代表 性 的 技术 包括 多 角 


度 帧 内 预测 、 自 适应 运动 参数 (Adaptive Motion Parameter， 


AMP) 编码 、 运 动 合并 ( Motion Merge) 、 高 精度 运动 补偿 、 自 适应 环 路 滤波 以 及 基于 语义 的 炉 
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编码 等 ， 使 得 视频 编码 效率 得 到 显著 提高 ， 在 同等 视频 质量 的 条 件 下 ，HEVC 的 压缩 效率 要 比 
H. 264/AVC 提高 一 倍 。 除 此 之 外 ，HEVC 还 引入 了 很 多 并 行 运算 的 优化 思路 ， 为 并 行 化 程度 非 
常 高 的 芯片 实现 提供 了 技术 支持 。 


6. 4.2 ”基于 四 叉 树 结构 的 编码 单元 划分 


视频 帧 中 图 像 的 不 同 区 域 有 着 不 同 的 局 部 特性 ， 如 颜色 、 纹 理 结构 、 与 参考 帧 的 相关 性 
(运动 信息 ) 等 等 。 因 此 ， 在 编码 时 通常 需要 进行 分 块 处 理 ， 对 不 同 的 图 像 区 域 采用 不 同 的 编码 
模式 ， 从 而 达到 较 高 的 压缩 效率 。 

为 了 更 好 地 适应 编码 图 像 的 内 容 ，HEVC 采用 了 灵活 的 块 (Block) 结构 来 对 图 像 进行 编码 ， 
即 块 的 大 小 是 可 以 自 适应 改变 的 。 在 HEVC 标准 中 握 弃 了 “ 宏 块 ”( MB) 的 概念 而 采用 “单元 ” 
的 概念 。 

根据 功能 的 不 同 ， 在 HEVC 中 定义 了 编码 树 单元 (Coding Tree Unit，CTU) 、 编 码 单元 (Coding 
Unit，CU ) 、 预 测 单元 (Prediction Unit，PU) 和 变换 单元 (Transform Unit，TU ) 四 种 类 型 的 单元 。 
CTU 是 基本 处 理 单元 ， 其 作用 与 H. 264/AVC 中 的 宏 块 相 类 似 。CU 是 进行 帧 内 或 帧 间 编 码 的 基本 单 
元 ，PU 是 进行 帧 内 或 帧 间 预 测 的 基本 单元 ，TU 是 进行 变换 和 量化 的 基本 单元 。 一 帧 竺 编码 的 图 像 
被 划分 成 若干 个 互 不 重 又 的 CTU。 一 个 CTU 可 以 由 1 个 或 多 个 CU 组 成 ,一 个 CU 在 进行 帧 内 或 帧 
间 预 测 时 可 以 划分 成 多 个 PU， 在 进行 变换 和 量化 时 又 可 以 划分 成 多 个 TU。 这 4 种 不 同类 型 单元 分 
离 的 结构 ， 使 得 变换 、 预 测 和 编码 各 个 环节 的 处 理 显 得 更 加 灵活 ， 更 加 符合 视频 图 像 的 纹理 特征 ， 
有 利于 各 个 单元 更 优化 地 完成 各 自 的 功能 。 

(1) 编码 单元 和 编码 树 单 元 

HEVC 标准 采用 了 灵活 的 编码 单元 划分 ， 其 划分 方式 是 内 容 自 适应 的 ， 即 在 图 像 纹 理 比 较 平 
坦 的 区 域 ， 划 分 成 较 大 的 编码 单元 ; 而 在 图 像 纹理 存在 较 多 细节 的 区 域 ， 划 分 成 较 小 的 编码 单 
元 。 编 码 单元 (CU) 的 大 小 可 以 是 64 x64、32 x32、16 x16 或 8x8。 最 大 尺寸 (比如 64 x64) 
的 CU 称 为 最 大 编码 单元 (Largest Coding Unit，LCU ) ， 最 小 尺寸 〈 比 如 8 x8) 的 CU 称 为 最 小 编码 
单元 (Smallest Coding Unit，SCU ) 。 

每 个 编码 单元 (CU) 由 一 个 亮度 编码 块 (Coding Block，CB) 和 相应 的 两 个 色 度 编码 块 
(CB) 及 其 对 应 的 语法 元 素 (Syntax Elements) 构成 。 编 码 块 (CB) 的 形状 必须 是 正方 形 的 。 对 
于 4 : 2 :0 的 采样 格式 ， 如 果 一 个 亮度 CB 包含 2N x2N 亮度 分 量 样 值 ， 则 相应 的 两 个 色 度 CB 
分 别 包 含 N x WN 色 度 分 量 样 值 。N 的 大 小 可 以 取 32、16、8 或 4， 其 值 在 序列 参数 集 ( Sequence 
Parameter Set，SPS) 的 语法 元 素 中 声明 。 

一 帧 待 编码 的 图 像 首 先 被 划分 成 若干 个 互 不 重 到 的 LCU， 然 后 从 LCU 开始 以 四 叉 树 ( quad- 
tree) 结构 的 递归 分 层 方 式 划 分 成 一 系列 大 小 不 等 的 CU。 最 大 的 划分 深度 (depth) 由 LCU 和 
SCU 的 大 小 决定 。 同 一 分 层 上 的 CU 具有 相同 的 划分 深度 ，LCU 的 划分 深度 为 0。 一 个 CU 是 否 
继续 被 划分 成 4 个 更 小 的 CU， 取决 于 划分 标志 位 split_flag。 如 果 一 个 划分 深度 为 d 的 编码 单元 
CU”"， 其 split_flag 值 为 0， 则 该 CU" 不 再 被 划分 ; 反之 ,该 CU 被 划分 成 4 个 划分 深度 为 d+1 的 
编码 单元 CU”' 。 图 6-23 描述 的 是 划分 深度 为 3 时 的 四 又 树 结构 编码 单元 划分 示意 图 ， 图 中 的 数 
字 表 示 编 码 单元 的 序号 ， 也 是 编码 单元 的 编码 次 序 。 

每 个 LCU 经 四 叉 树 结构 的 递归 分 层 方式 划分 后 ， 形 成 一 系列 大 小 不 等 的 CU。 顾名思义， 编码 
树 单元 ( Coding Tree Unit，CTU) 就 是 由 这 些 树 状 结构 的 编码 单元 构成 。 每 个 CTU 包含 一 个 亮度 编 
码 树 块 (Coding Tree Block，CTB) 和 两 个 色 度 CTB 以 及 与 它们 相对 应 的 语法 元 素 。 

与 H. 264/AVC 中 的 宏 块 划分 方法 相 比 ， 基 于 四 又 树 结构 的 灵活 的 编码 单元 划分 方法 有 下 列 优点 。 
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图 6-23 ”划分 深度 为 3 时 的 四 又 树 结构 编码 单元 划分 示意 图 


1) 编码 单元 的 大 小 可 以 大 于 传统 的 宏 块 大 小 (16 x 16 ) 。 对 于 平坦 区 域 ， 用 一 个 较 大 的 编 
码 单元 编码 可 以 减少 所 需 的 比特 数 ， 提 高 编码 效率 。 这 一 点 在 高 清 视频 应 用 领域 体现 得 尤为 明 
显 。 在 高 清 及 超 高 清 分 辩 率 的 图 像 中 ， 相 对 于 整个 图 像 来 说 ，16 x 16 宏 块 表示 的 区 域 过 小 ,将 
多 个 宏 块 合 并 成 一 个 较 大 的 编码 单元 进行 编码 能 更 有 效 地 减少 空间 宛 余 。 

2) 通过 合理 地 选择 最 大 编码 单元 (LCU) 大 小 和 最 大 划分 深度 ， 编 码 器 的 编码 结构 可 以 根 
据 不 同 的 图 像 内 容 、 图 像 分 辨 率 以 及 应 用 需求 获得 较 大 程度 的 优化 。 

3) 不 同 大 小 的 块 统一 用 编码 单元 来 表示 ， 消 除了 宏 块 与 亚 宏 块 之 分 ， 并且 编码 单元 的 结构 
可 以 根据 LCU、 最 大 划分 深度 以 及 一 系列 划分 标志 (split_flag) 简单 地 表示 出 来 。 

在 H.264/AVC 中 ， 对 宏 块 的 编码 是 按 光 
栅 扫 描 顺序 进行 的 ， 即 从 左 往 后 、 从 上 往 下 ， 
逐 行 扫描 。 人 然而，HEVC 采用 四 又 树 结构 的 递 
归 分 层 方式 来 划分 CU， 如 果 还 是 采用 光栅 扫 
描 顺 序 的 话 ， 对 于 编码 单元 的 寻 址 将 会 很 不 方 
和 更， 因此，HEVC 采用 了 划分 深度 优先 、Z 扫 
描 的 顺序 进行 遍历 ， 如 图 6-24 所 示 。 图 6-24 
中 的 箭头 指示 编码 单元 的 遍历 顺序 。 这 样 的 遍 
历 顺序 可 以 很 好 地 适应 四 叉 树 的 递归 结构 ， 保 
证 了 在 处 理 不 同 尺寸 的 编码 单元 时 的 一 致 性 ， 
从 而 降低 解析 码 流 的 复杂 度 。 

(2) 预测 单元 

对 于 每 个 CU，HEVC 使 用 预测 单元 (PU) 
来 实现 该 CU 的 预测 过 程 。PU 是 进行 帧 内 或 帧 
间 预 测 的 基本 单元 ， 一 切 与 预测 有 关 的 信息 都 图 6-24 CTU 中 编码 单元 的 遍历 顺序 
在 预测 单元 中 定义 ， 比 如 ， 帧 内 预测 的 模式 选 
择 信息 (预测 方向 ) 或 帧 间 预 测 的 运动 信息 (选择 的 参考 帧 索引 号 、 运 动 矢 量 等 ) 都 在 PU 中 定 
义 。 每 个 PU 包含 亮度 预测 块 (Prediction Block ，PB) 、 色 度 预 测 块 (PB) 以 及 相应 的 语法 元 素 。 

每 一 个 CU 可 以 包含 一 个 或 者 多 个 PU，PU 的 划分 从 CU 开始 ， 从 CU 到 PU 仅 人 允许 一 层 划 分 ， 
PU 的 大 小 受 限 于 其 所 属 的 CU。 依据 基本 预测 模式 判定 ， 亮 度 CB 和 色 度 CB 可 以 进一步 分 割 成 亮 
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度 PB 和 色 度 PB，PB 的 大 小 由 64 x64 到 


4 x4 不 等 。 通 常情 况 下 ， 为 了 和 实际 图 像 i 
中 物体 的 轮廓 更 加 匹配 ， 从 而 得 到 更 好 的 





















































划分 结果 ，PU 的 形状 并 不 局 限于 正方 形 ， a 

它 可 以 长 宽 不 一 样 ， 但 是 为 了 降低 编码 复 

杂 度 ，PU 的 形状 必须 是 矩形 的 。 在 HEVC in | 十 

中 ， 预 测 类 型 有 3 种 ， 即 跳 过 (skip) 、 帧 

内 (intra) 和 帧 间 (inter) 预测 。PU 的 2NX2N 

划分 是 根据 预测 类 型 来 确定 的 ， 对 于 一 个 

大 小 为 2N x2N 《 导 可 以 是 32、 16、8、4) jm 围 [一 | 

的 编码 单元 来 说 ，PU 的 划分 方式 如 图 6-25 

所 示 。 2NX2N 2NXN NX2N 
跳 过 (skip) 预测 模式 是 帧 间 预 测 的 

和， 当前 要 四 风 运动 信息 只 在 过 动人 | | | 加 | 

数 集 索 引 (采用 运动 合并 技术 ) ， 而 残 差 

这 息 不 需要 编码 时 ， 就 采用 跳 过 〈skip ) 2NXnU 2NXnD nLX2N nRX2N 





预测 模式 。 当 编码 单元 采用 跳 过 (skip) ”图 6-25 2Nx2N 大 小 的 CU 划分 成 PU 的 不 同方 式 
预测 模式 时 ，PU 的 划分 只 允许 选择 2N x2NN 这 种 方式 。 

当 编码 单元 采用 帧 内 〈intra) 预测 模式 时 ，PU 的 划分 只 允许 选择 2N x2N 或 NxN 方 式 , 但 
对 于 Vx 这 种 划分 方式 ， 只 有 当 CU 的 大 小 为 最 小 CU 时 才能 使 用 。 

当 编 码 单 元 采用 帧 间 (inter) 预测 模式 时 ，PU 的 划分 可 以 选择 8 种 划分 方式 的 任意 一 种 ， 
其 中 2N x2N、N x N、2N xWN 和 WN xWN 四 种 划分 方式 是 对 称 的 ; 2N xnU、 2NxnD、nLx2N 和 nR 
x2N 四 种 划分 方式 是 非 对 称 的 ， 为 可 选 模 式 ， 可 以 通过 编码 器 配置 开启 或 关闭 。 在 非 对 称 划分 
方式 中 ,将 CU 分 为 两 个 大 小 不 同 的 PU， 其 中 一 个 PU 的 宽 或 长 为 CU 的 1/4， 男 一 个 PU 对 应 的 
宽 或 长 为 CU 的 3/4。 非 对 称 划 分 方式 只 用 于 大 小 为 32 x32、16 x16 的 CU 中 。 对 称 的 NxN 划 
分 方式 只 用 于 大 小 为 8 x8 的 CU 中 。 

上 述 中 PU 的 划分 是 针对 亮度 像素 块 来 说 的 ， 色 度 像 素 块 的 划分 在 大 部 分 情况 下 与 亮度 像素 
块 一 致 。 然 而 ， 为 避免 PU 的 尺寸 小 于 4 x4， 当 CU 的 尺寸 为 8 x8 且 PU 的 划分 方式 为 N xN 时 ， 
尺寸 为 4x4 的 色 度 像素 块 不 再 进行 分 解 。 

采用 上 述 划 分 方式 考虑 了 大 尺寸 区 域 可 能 的 纹理 分 布 ， 可 以 有 效 提高 大 尺寸 区 域 的 预测 
效率 。 

(3) 变换 单元 

一 个 CU 以 PU 为 单位 进行 帧 内 / 帧 间 预 测 ， 预 测 残 差 通过 变换 和 量化 来 实现 进一步 压缩 。 变 
换 单元 (TU) 是 对 预测 残 差 进行 变换 和 量化 的 基本 单元 。 在 H. 264/AVC 标准 中 采用 了 4 x4 和 8 

x8 整数 变换 ， 然 而 ， 对 于 一 些 尺 寸 较 大 的 编码 单元 ， 采用 相应 的 大 尺寸 的 变换 更 为 有 效 。 尺 寸 
大 的 变换 有 较 好 的 频率 分 辩 率 ， 而 尺寸 小 的 变换 有 较 好 的 空间 分 辨 率 ， 因 此 ， 需 要 根据 残 差 信和 号 
的 时 频 特 性 自 适应 地 调整 变换 单元 的 尺寸 。 

一 个 CU 中 可 以 有 一 个 或 多 个 TU， 人 允许 一 个 CU 中 的 预测 残 差 通过 四 又 树 结构 的 递归 分 层 方 
式 划分 成 多 个 TU 分 别 进行 处 理 。 这 个 四 又 树 称 为 残 差 四 义 树 (Residual Quad-tree，RQT) 。 与 编 
码 单元 四 叉 树 类 似 ， 残 差 四 义 树 采用 划分 深度 优先 、Z 扫描 的 顺序 进行 遍历 。 

变换 单元 的 最 大 尺寸 以 及 残 差 四 叉 树 的 层级 可 以 根据 不 同 的 应 用 进行 相应 的 配置 ， 对 实时 
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性 或 复杂 度 要 求 较 低 的 应 用 可 以 通过 增加 残 差 四 又 树 的 层级 来 提高 编码 效率 。 

需要 注意 的 是 ， 一 个 CU 中 TU 的 划分 与 PU 的 划分 是 相互 独立 的 。 在 帧 内 预测 编码 模式 中 ， 
TU 的 尺寸 需 小 于 或 者 等 于 PU 的 尺寸 ;而 在 帧 间 预 测 编 码 模式 中 ，TU 的 尺寸 可 以 大 于 PU 的 尺 
寸 , 但 是 不 能 超过 CU 的 尺寸 。TU 的 形状 取决 于 PU 的 划分 方式 ， 如 果 PU 是 正方 形 的 ， 则 TU 
也 必须 是 正方 形 的 ， 其 大 小 为 32 x32、16 x16、8 x8 或 4x4; 如 果 PU 为 非 正 方形 的 ， 则 TU 也 
必须 是 非 正 方形 的 ， 其 大 小 为 32 x8、8 x32、16 x4 或 4x16, 这 4 种 TU 可 用 于 亮度 分 量 ， 而 其 
中 只 有 32 x8、8 x32 可 用 于 色 度 分 量 。 


6.4.3 由 内 预测 


帧 内 预测 就 是 利用 当前 预测 单元 (PU) 像素 与 其 相 邻 的 周围 像素 的 空间 相关 性 ， 以 空间 相 
邻 像素 值 来 预测 当前 待 预测 单元 的 像素 值 。HEYVC 的 帧 内 预测 是 在 H. 264/AVC 帧 内 预测 的 基础 
上 进行 了 扩展 ， 采 用 了 多 角度 帧 内 预测 技术 。 

1. 预测 模式 

在 HH.264/AVC 中 ， 亮 度 块 的 帧 内 预测 分 为 4 x4 块 预测 模式 和 16 x 16 块 预测 模式 两 类 。4 x 
4 块 预测 模式 以 4 x4 大 小 的 子 块 作为 一 个 单元 ， 共 有 9 种 预测 模式 ， 由 于 它 分 块 较 小 ， 因 此 适 
合用 来 处 理 网 像 纹理 比较 复杂 、 细 节 比 较 丰 富 的 区 域 ; 而 16 x16 块 预测 模式 把 整个 16 x 16 的 宏 
块 作为 一 个 预测 单元 ， 有 4 种 预测 模式 ,适合 处 理 比较 平坦 的 图 像 区域 。 

HEVC 沿用 H. 264/AVC 帧 内 预测 的 整体 思路 ,但 在 具体 实现 过 程 中 有 了 新 的 改进 和 深入 。 
为 了 能 够 捕捉 到 更 多 的 图 像 纹理 及 结构 信息 ，HEVC HEVC 细 化 了 帧 内 预测 的 方向 ， 提 供 了 35 
种 帧 内 预测 模式 。 模 式 0、1 分 别 为 intra_Planar 和 intra_DC 两 种 非 方向 性 预测 模式 ， 模 式 2 ~ 34 
为 33 种 不 同 角度 的 方向 性 预测 模式 。 

HEVC 中 的 intra_DC 预测 模式 和 H. 264/AVC 中 的 类 似 ， 预 测 像素 的 值 由 参考 像素 的 平均 值 
得 到 。 与 H. 264/AVC 相 比 ，HEVC 中 定义 的 方向 性 预测 模式 的 角度 划分 更 加 精细 ， 能 够 更 好 地 
描述 图 像 中 的 纹理 结构 ， 提 高 帧 内 预测 的 准确 性 。 此 外 ，intra_Planar 预测 模式 解决 了 H. 264/ 
AVC 中 Plane 模式 容易 在 边缘 造成 不 连 -30 -25 -20 -15 -10 -5 0 5 10 15 20 25 30 
续 性 的 问题 ， 对 具有 一 定 纹理 渐变 特 IW nya 
征 的 区 域 可 进行 高 效 的 预测 。 男 一 个 
重要 的 区 别 是 ，HEVC 中 帧 内 预测 模式 ”3 
的 定义 在 不 同 块 大 小 上 是 一 致 的 , 这 ”20 
一 点 在 HEVC 的 分 块 结构 和 其 他 编码 -15 
工具 上 也 有 体现 。 

33 种 方向 性 预测 模式 的 预测 方向 
如 图 6-26 所 示 。 其 中 ， 和 靠近 水 平 向 左 
或 垂直 向 上 方向 时 ， 角 度 的 间隔 小 ; 
而 在 靠近 对 角 线 方向 时 ， 角 度 的 间 
隔 大 。 

在 图 6-26 中 ， 预 测 方向 并 没有 用 
几何 角度 来 表示 ， 而 是 用 偏 移 值 d 来 
表示 ，d 的 单位 为 1/32 像素 。 在 横 轴 
上 ， 数 字 部 分 表示 预测 方向 相对 于 垂 
直 向 上 方向 的 偏 移 值 4， 向 右 偏 移 时 d 图 6-26 33 种 方向 性 预测 模式 的 预测 方向 
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的 值 为 正 ， 向 左 仿 移 时 4 的 值 为 负 ， 预 测 方向 与 垂直 向 上 方向 夹 角 的 正切 值 等 于 w32; 在 纵 轴 上 ， 
数字 部 分 表示 预测 方向 相对 于 水 平 向 左 方向 的 侦 移 值 4， 向 下 偶 移 时 d 的 值 为 正 ， 向 上 偏 移 时 d 的 
值 为 负 ， 预 测 方向 与 水 平 向 左 方向 夹 角 的 正切 值 等 于 d/32。 

35 种 帧 内 预测 模式 都 有 相应 的 编号 ，intra_Planar 预测 模式 的 编号 为 0，intra_DC 预测 模式 的 
编号 为 1， 其 余 33 种 方向 性 预测 模式 的 编号 为 2 ~34， 它 们 与 预测 方向 的 对 应 关系 如 图 6-27 
所 示 。 图 中 的 数字 2 ~ 34 表示 各 个 预测 方向 对 应 的 模式 编号 。 
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图 6-27 33 种 方向 性 预测 模式 的 编号 与 预测 方向 的 对 应 关系 








由 图 6-27 可 以 看 出 ， 模 式 2 ~ 17 为 水 平方 向 上 的 预测 模式 ， 模 式 18 ~ 34 为 垂直 方向 上 的 预 
测 模 式 。 模 式 编号 和 偏 移 值 4 的 对 应 关系 如 表 6-7 所 示 。 


表 6-7 模式 编号 和 偏 移 值 4 的 对 应 关系 


模式 编号 ll 2 3 4 5 6 g 8 9 10 | 11 12 |13 |14 115 116 |17 














偏 移 值 d - 32 | 26 | 21 17 | 13 9 5 2 0 -2 | -5| -9|-13|-17| -21|-26 











模式 编号 18 19 | 20 21 22 23 24 25 26 27 28 29 30 31 32 33 | 34 


















































偏 移 值 4d | -32 | -26| -21| -17| -13| -9| -5|-2,0 2 5 9 13 | 17 | 21 | 26 | 32 








在 HEVC 的 帧 内 预测 过 程 中 ， 编 码 图 像 块 将 预测 图 像 块 的 左边 一 列 和 上 面 一 行 的 图 像 像素 作 
为 参考 像素 进行 预测 。 每 一 个 给 定 的 帧 内 预测 方向 都 存在 两 个 预测 方向 ， 如 果 预 测 方向 靠近 水 
平 负 ， 那 么 左边 一 列 的 图 像 像素 作为 主要 参考 像素 ， 上 面 一 行 的 图 像 像素 作为 次 要 参考 像素 ; 如 
果 预 测 方向 是 靠近 垂直 轴 的 ， 那 么 上 面 一 行 的 图 像 像素 作为 主要 参考 像素 ,左边 一 列 的 图 像 像 
素 作为 次 要 参考 像素 。HEVC 将 图 6-26 所 示 的 33 个 预测 方向 分 成 两 类 : 第 一 类 是 正方 向 ， 即 偏 
移 值 d 是 正 数 ， 体 现在 图 中 是 垂直 轴 右 边 和 水 平 轴 下 方 的 两 个 方向 ; 第 二 类 是 负 方向 ， 即 偏 移 值 
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4 是 负数 ， 体 现在 图 中 是 垂直 轴 左 边 和 水 平 轴 上 方 的 两 个 方向 。 在 HEVC 中 ， 对 不 同 的 预测 方 
向 ， 采 用 的 处 理 方式 是 不 一 样 的 。 当 采 用 正方 向 预测 时 ， 当 前 编码 块 只 需要 将 主要 参考 像素 作为 
预测 像素 ， 当 采用 负 方 向 预测 时 ， 当 前 编码 块 不 仅 需要 将 主要 参考 像素 作为 预测 像素 ， 还 要 判断 
是 否 需要 将 次 要 参考 像素 作为 预测 像素 。 
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2. 平滑 预 处 理 
为 了 降低 噪声 对 预测 的 影响 ， 提 高 帧 内 预测 的 精度 和 效率 ，HEVC 标准 根据 预测 块 的 尺寸 和 
帧 内 预测 模式 的 不 同 ， 选 择 性 地 对 参考 像素 进行 平滑 滤波 处 理 。 其 总 的 原则 是 : intra_DC 预测 模 





式 不 需要 对 参考 像素 进行 平滑 滤波 处 理 ; 对 于 4 x4 大 小 的 预测 块 ， 所 有 帧 内 预测 模式 都 不 用 对 
参考 像素 进行 平滑 滤波 处 理 ; 较 大 的 预测 块 和 偏离 垂直 和 水 平方 向 的 预测 模式 更 需要 对 参考 像 
素 进行 平滑 滤波 处 理 。 具 体 地 ， 需 要 对 参考 像素 进行 平滑 滤波 处 理 的 预测 块 的 大 小 和 预测 模式 
编号 如 表 6-8 所 示 。 进 行 平滑 滤波 处 理 时 ， 将 参考 像素 看 成 一 个 数列 ， 它 的 第 一 个 元 素 和 最 后 一 
个 元 素 保持 不 变 ， 其 余 元 素 通 过 滤波 系数 为 (1/4，1/2，1/4) 的 滤波 器 进行 平滑 处 理 。 


表 6-8 需要 对 参考 像素 进行 平滑 滤波 处 理 的 预测 块 的 尺寸 和 预测 模式 编号 
































预测 块 的 尺寸 模式 编号 
8 x8 0, 2, 18, 34 
16x16 0, 2~8, 12~24, 28 ~34 
32 x32 0, 2~9, 11~25, 27 ~34 





6. 4.4” 帧 间 预 测 


图 像 的 相关 性 除了 空间 相关 性 ， 还 包括 时 间 相 关 性 。 相 邻 帧 图 像 之 间 有 着 极 强 的 相关 性 ， 如 
果 利 用 当前 预测 帧 图 像 的 前 后 帧 作为 参考 ,不必 存 储 每 一 组 图 像 的 所 有 信息 ， 只 需要 存储 和 相 
邻 帧 对 应 预测 单元 不 同 的 变化 的 信息 ， 就 可 以 大 幅 降 低 所 需 传 输 的 数据 量 ， 显 著 地 提高 图 像 的 
压缩 率 。 

帧 间 预 测 技术 就 是 利用 相 邻 帧 图 像 的 相关 性 ， 使 用 先前 已 编码 重建 帧 作为 参考 帧 ， 通 过 运 
动 估计 和 运动 补偿 对 当前 帧 图 像 进行 预测 。HEVC 的 帧 间 预 测 技术 总 体 上 和 H. 264/AVC 相似 ， 
但 进行 了 如 下 几 点 改进 。 

1. 可 变 大 小 PU 的 运动 补偿 

如 前 所 述 ， 每 个 CTU 都 可 以 按照 四 义 树 结构 递归 地 划分 为 更 小 的 方形 CU， 这 些 帧 间 编 码 的 
小 CU 还 可 以 再 划分 一 次 ， 分 成 更 小 的 PU。CU 可 以 使 用 对 称 的 或 非 对 称 的 运动 划分 (Asymmet- 
ric Motion Partitions，AMP), 将 64x64、32 x32、16 x16 的 CU 划分 成 更 小 的 PU，PU 可 以 是 方 
形 的 ， 也 可 以 是 和 矩形 的 ， 如 图 6-25 所 示 。 每 个 采用 帧 间 预 测 方式 编码 的 PU 都 有 一 套 运动 参数 
( Motion Parameters，MP) ， 包 括 运动 矢量 、 参 考 帧 索引 和 参考 表 标 志 。 因 为 非 对 称 的 运动 划分 使 
得 PU 在 运动 估计 和 运动 补偿 中 更 精确 地 符合 图 像 中 运动 目标 的 形状 ， 而 不 需要 通过 进一步 的 细 
分 来 解决 ， 因 此 可 以 提高 编码 效率 。 

2. 运动 估计 的 精度 

(1) 亮度 分 量 亚 像素 样 点 内 插 

和 H. 264/AVC 类 似 ，HEVC 亮度 分 量 的 运动 估计 精度 为 1/4 像素 。 为 了 获得 亚 像素 样 点 的 
亮度 值 ， 不 同位 置 的 亚 像 素 样 点 亮度 的 内 插 滤波 器 的 系数 是 不 同 的 ，1/2 像素 内 插 点 的 亮度 值 采 
用 一 维 8 抽 头 的 内 插 滤波 器 产生 ，1/4 像素 内 插 点 的 亮度 值 采 用 一 维 7 抽 头 的 内 插 滤 波 器 产生 。 
用 内 插 点 周围 的 整 像素 样 点 值 产生 亚 像 素 样 点 值 的 示意 图 如 图 6-28 所 示 。 
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图 6-28 亮度 分 量 亚 像素 位 置 及 内 插 所 用 的 整 像素 样 点 示意 图 
































和 整 像素 样 点 在 同一 水 平 线 上 的 内 持 点 和 











插 点 所 用 的 7 抽 
插 点 所 用 的 8 抽 














像素 内 插 点 所 用 








和 整 像 素 样 点 在 同一 垂直 线 上 的 内 插 点 的 亮度 值 用 垂直 方向 内 持 滤波 器 产生 ， 
和 水 平方 向 一 样 。 处 于 中 间 的 9 个 内 插 点 的 亮度 值 则 利 月 




















头 内 插 滤 波 器 系数 为 : -1， 
头 内 插 滤波 絮 系 数 为 :1， 
的 7 抽 头 内 插 滤 波 器 系数 为 : 





和 亮度 值 用 水 平方 向 内 插 滤 波 器 产 

















E ，1 /4 像素 内 
-9 ， +1; 


+4，-10，+58，+17， 1/2 像素 内 

+4, -11, +40, +40, -11, +4, -1; 3/4 

+1, -5, +17, +58, -10, +4, -1。 
滤波 器 系数 

















刚才 内 插 出 来 的 亚 像素 样 点 值 ， 沿 用 上 











述 的 垂直 方向 8 抽 头 、7 抽 头 内 插 滤 波 器 产生 ， 滤 波 器 系数 仍然 和 前 面 一 样 。 











(2) 色 度 分 量 3 














像素 样 点 内 插 








对 于 4 : 2 : 0 采样 格式 的 数字 视频 ， 色 度 分 量 整 像 素 样 点 的 距离 比 亮度 分 量 大 一 倍 ， 要 达到 
和 亮度 分 量 同样 的 插值 密度 ， 其 插值 精度 需 为 1/8 色 度 像素 。 
插 滤 波 融 用 类 似 亮度 的 方法 得 到 。 
和 整 像素 样 点 在 同一 水 平 线 上 的 内 插 点 的 色 度 值 用 水 平方 向 的 4 抽 头 内 插 滤波 器 产生 ， 滤 波 
器 系数 如 表 6-9 所 示 。 








表 6-9 4 抽 头 内 插 滤 波 器 系数 











色 度 分 量 的 预测 值 由 一 维 4 抽 头 内 









































1/8 像素 内 插 点 -2, +58, +10, -2 
2/8 像素 内 插 点 -4，+54，+16，-2 
3/8 像素 内 插 点 -6, +46, +28, -4 
4/8 像素 内 插 点 -4, +36, +36, -4 
5/8 像素 内 持 点 -4, +28, +46, -6 
6/8 像素 内 持 点 -2, +16, +54, -4 
7/8 像素 内 持 点 -2, +10, +58, -2 
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处 于 中 间 的 49 个 内 插 点 的 色 度 值 则 利用 刚才 内 插 出 来 的 亚 像素 样 点 值 ， 沿 用 上 述 的 垂直 方 
向 4 抽 头 滤波 器 产生 ， 滤 波 器 系数 值 仍然 和 前 面 一 样 。 

3. 运动 参数 的 编码 模式 

每 一 个 帧 间 预 测 的 PU 含有 一 组 运动 参数 (包括 运动 矢量 、 参 考 帧 的 索引 值 和 参考 帧 列表 的 
使 用 标记 等 ) 。HEVC 标准 对 这 些 运 动 参数 的 编码 和 传输 有 3 种 模式 : Merge 模式 、Skip 模式 和 
Inter 模式 。Inter 模式 是 一 种 显 式 的 方式 ， 需 要 对 当前 编码 PU 的 运动 矢量 (MV) 进行 预测 编码 
和 传输 ， 以 实现 基于 运动 补偿 的 帧 间 预 测 。Merge 模式 是 一 种 隐 式 的 方式 ， 是 HEVC 引入 的 一 种 
“运动 合并 ”( Motion Merge) 技术 ， 它 的 概念 与 H. 264/AVC 中 SKIP 和 DIRECT 模式 类 似 。 所 不 
同 的 是 ， 在 Merge 模式 下 采用 的 是 基于 “竞争 ”机 制 的 运动 参数 选择 方法 ， 即 搜索 周边 已 编码 的 
帧 间 预 测 块 ， 将 它们 的 运动 参数 组 成 一 个 候选 列表 ， 由 编码 器 选择 其 中 最 优 的 一 个 作为 当前 块 
的 运动 参数 并 编码 其 索引 值 。 另 一 个 不 同 点 是 ，Merge 模式 侧重 于 将 当前 块 与 周边 已 编码 的 预测 
块 进行 融合 ， 形 成 运动 参数 一 致 的 不 规则 区 域 ， 从 而 改进 四 叉 树 分 解 中 国定 的 方块 划分 的 缺点 。 
HEVC 还 定义 了 一 种 称 为 Skip 的 模式 ， 这 种 模式 与 2V x2N 的 Merge 模式 类 似 ， 不 同 的 是 ，Skip 
模式 中 不 需要 对 运动 补偿 后 的 预测 残 差 进行 编码 ， 而 直接 将 预测 信号 作为 重 构 图 像 。 

(1) Merge 模式 

为 了 充分 利用 时 间 和 空间 的 相关 性 ， 进 一 步 提高 编码 效率 ，HEVC 新 引入 了 运动 合并 ( Mo- 
tion Merge) 技术 ， 即 Merge 模式 。Merge 模式 将 相 邻 的 几 个 已 编码 预测 块 的 运动 参数 组 成 候选 列 
表 ， 编 码 器 按照 率 失真 优化 〈Rate Distortion Optimization ，RDO) 准则 ， 从 候选 列表 中 选 出 使 其 
编码 代价 最 小 的 候选 运动 参数 ， 将 其 作为 当前 待 编 码 PU 的 运动 参数 ， 这 样 在 码 流 中 就 不 需要 传 
输 当 前 待 编 码 PU 的 运动 参数 ， 而 只 需要 传输 最 佳 候选 运动 参数 的 索引 (Index) ， 解 码 端 根据 索 
引 在 运动 参数 候选 列表 中 找到 匹配 的 运动 参数 ， 从 而 完成 解码 。Merge 模式 适用 于 所 有 帧 间 预 测 
情形 。 

在 Merge 模式 中 ， 候 选 列 表 中 的 候选 预测 块 
分 为 两 类 : 空间 上 相 邻 的 已 编码 块 和 时 间 上 相 邻 
的 已 编码 块 。 在 空间 相 邻 的 已 编码 块 中 ， 可 以 从 
图 6-29 所 示 的 5 个 不 同位 置 1AL、B1、B0、 
A0、B21 中 依照 Al 一 B1 一 B0 一 A0 一 (B2) 的 次 
序 最 多 选择 其 中 的 4 个 。 需 要 注意 的 是 ， 只 有 在 
Al 、B1 、B0 、A0 四 个 位 置 的 预测 块 中 有 任意 一 
个 不 可 用 时 ， 才 考虑 将 B2 作为 候选 预测 块 。 例 
如 ， 若 当前 待 编 码 PU 为 Nx2N、nLx2N 或 nR x 
2 划分 方式 中 的 右 侧 PU 时 ， 则 Al 不 可 作为 候选 图 6-29 Merge 模式 可 选择 的 相 邻 已 编码 块 的 位 置 
预测 块 ， 否 则 合并 后 形成 一 个 类 似 2N x2N 的 
预测 块 ， 候 选 预测 块 的 选择 次 序 是 Bl 一、B0-、A0 一 B2。 同 理 ， 若 当前 待 编 码 PU 为 2N xN、2NxnU 
或 2N xnD 划分 方式 中 的 下 侧 PU 时 ， 则 B1 不 可 作为 候选 预测 块 ， 候 选 预测 块 的 选择 次 序 是 Al 一 
B0 一 A0 一 B2 。 在 时 间 相 邻 的 已 编码 块 中 ， 最 多 可 以 从 图 6-29 所 示 的 两 个 不 同位 置 1TO、T1} 中 
选择 一 个 。 如 果 对 应 参考 帧 中 右 下 位 置 的 预测 块 TO 的 运动 参数 有 效 ， 那 么 就 选 TO 作为 候选 预测 
块 ， 和 否则 就 选 参考 帧 中 与 当前 PU 相同 位 置 的 预测 块 Tl 作为 候选 预测 块 。 

在 候选 块 的 选择 过 程 中 ， 要 去 除 其 中 运动 参数 重复 的 候选 块 ， 同 时 还 要 去 除 其 中 使 得 与 当 
前 预测 块 合并 后 形成 一 个 等 同 于 2N x2N 的 预测 块 的 候选 块 。 当 候选 块 的 个 数 不 超 过 设 定 的 最 大 
值 MaxNumMergeCand (默认 值 为 5) 时 ， 由 已 有 的 候选 块 的 运动 参数 产生 新 的 运动 参数 或 者 用 0 
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进行 填补 。 这 样 ， 运 动 参数 候选 值 的 个 数 就 固定 为 一 个 设 定 的 值 ， 使 得 解码 所 选 候选 值 的 索引 值 
时 不 依赖 于 候选 列表 的 选择 过 程 ， 这 样 有 利于 解码 时 的 并 行 处 理 ， 并 提高 容错 能 力 。 

(2.) Inter 模式 

在 Inter 模式 中 ,需要 对 运动 拓 量 进行 差分 预测 编码 和 传输 。 运 动 矢量 的 预测 利用 到 了 相 邻 
块 运动 矢量 在 时 间 和 空间 上 的 相关 性 。 与 Merge 模式 相 类 似 ， 在 运动 矢量 预测 过 程 中 ， 主 要 是 两 
种 类 型 的 候选 运动 矢量 的 推导 : 空域 候选 运动 矢量 和 时 域 候 选 运动 矢量 。 在 空域 候选 运动 矢量 
的 选择 中 ， 从 5 个 不 同位 置 的 相 邻 块 运动 矢量 中 选 出 2 个 空域 候选 运动 矢量 。 其 中 ， 一 个 候选 运 
动 矢量 是 从 当前 编码 PU 的 左 侧 相 邻 块 ， 即 图 6-29 中 的 1AL、A0} 中 选 出 ; 男 一 个 候选 运动 矢 
量 则 从 当前 编码 PU 的 上 侧 相 邻 块 ， 即 图 6-29 中 的 1B1、B0 、B2} 中 选 出 。Inter 模式 候选 运动 
矢量 的 个 数 固定 为 2 个 ， 当 以 上 选择 的 候选 运动 矢量 少 于 2 个 时 ， 则 加 入 时 域 候 选 运动 矢量 ， 选 
择 的 方法 与 Merge 模式 相同 。 最 后 ， 若 候选 运动 矢量 的 个 数 仍 然 小 于 2， 则 用 值 为 0 的 运动 矢量 
填补 ， 直 到 候选 运动 矢量 的 个 数 等 于 2。 


6.4.5 变换 与 量化 


1. 整数 变换 

HEVC 采用 的 变换 运算 和 H. 264 类 似 ， 也 是 一 种 对 预测 残 差 进行 近似 DCT 的 整数 变换 ， 但 
为 适应 较 大 的 编码 单元 而 进行 了 改进 。HEVC 中 的 DCT 变换 有 4 种 大 小 : 32 x32、16 x16、8 x8 
和 4 x4。 每 一 种 大 小 的 DCT 都 有 一 个 相对 应 的 同样 大 小 的 整数 变换 系数 矩阵 ， 且 都 采用 蝶 形 算 
法 进行 计算 。 大 块 的 变换 能 够 提供 更 好 的 能 量 集中 效果 ， 并 能 在 量化 后 保存 更 多 的 图 像 细 节 ， 但 
是 却 带 来 更 多 的 振 铃 效应 。 因 此 ， 根 据 当 前 块 像素 数据 的 特性 ， 自 适应 的 选择 变换 块 大 小 可 以 得 
到 较 好 的 效果 。 

HEVC 在 一 个 编码 单元 (CU) 内 进行 变换 运算 时 ， 可 以 将 CU 按照 编码 树 层次 细 分 ， 从 
32 x32 直至 4 x4 的 小 块 。 例 如 一 个 16 x16 的 CU 可 以 用 一 个 16 x 16 的 变换 单元 (TU) 进行 
变换 ， 或 者 4 个 8 x8 的 TU 进行 变换 。 其 中 任意 一 个 8 x8 的 TU 还 可 以 进一步 分 为 4 个 4x4 的 
TU 进行 变换 。 变 换 运算 的 顺序 和 H. 264/AVC 不 同 ， 变 换 时 首先 进行 列 运算 ， 然 后 再 进行 行 运 
算 。HEVC 的 整数 变换 的 基 矢 量具 有 相同 的 能 量 ， 不 需要 对 它们 进行 调整 或 补偿 ， 而 且 对 DCT 
的 近似 性 要 比 H. 264/AVC 好 。 

对 于 4 x4 块 的 亮度 分 量 帧 内 预测 残 差 的 编码 ，HEVC 特别 指定 了 一 种 基于 离散 正弦 变换 
( Discrete Sine Transform，DST) 的 整数 变换 。 在 帧 内 预测 块 中 ,那些 接近 预测 参考 像素 的 像素 ， 
如 左上 边界 的 像素 将 获得 比 那些 远离 参考 像素 的 像素 预测 得 更 精确 ， 预 测 误差 较 小 ， 而 远离 边 
界 的 像素 预测 残 差 则 比较 大 。DST 对 编码 这 一 类 的 残 差 效果 比较 好 。 这 是 因为 不 同 DST 基 函 数 
在 起 始 处 很 小 ， 往 后 逐步 增 大 ， 和 块 内 预测 残 差 变化 的 趋势 比较 吻合 ， 而 DCT 基 函 数 在 起 始 处 
大 ， 往 后 逐步 衰减 。 

2. 率 失真 优化 的 量化 

HEVC 的 量化 机 理 和 H. 264/AVC 基本 相同 ， 是 在 进行 近似 DCT 的 整数 变换 时 一 并 完成 的 。 
量化 是 压缩 编码 产生 失真 的 主要 根源 ， 因 此 选择 恰当 的 量化 步 长 ， 使 失真 和 码 率 之 间 达 到 
最 好 的 平衡 就 成 了 量化 环节 的 关键 问题 。HEVC 中 的 量化 步 长 是 由 量化 参数 (QP) 标记 的 ， 共 
有 52 个 等 级 (0 ~51)， 每 一 个 QP 对 应 一 个 实际 的 量化 步 长 。QP 的 值 越 大 表示 量化 越 粗 ， 将 产 
生 的 码 率 越 低 ， 当 然 带 来 的 失真 也 会 越 大 。HEVC 采用 了 率 失 真 优 化 的 量化 (Rate Distortion Op- 
timized Quantization，RDOQ) 技术 ， 在 给 定 码 率 的 情况 下 选择 最 优 的 量化 参数 使 重建 图 像 的 失真 
最 小 。 
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量化 操作 是 在 变换 单元 (TU) 中 分 别 对 亮度 和 色 度 分 量 进行 的 。 在 TU 中 所 有 的 变换 系数 
都 是 按照 一 个 特定 的 量化 参数 (QP) 统一 进行 量化 和 反 量 化 的 。HEVC 的 RDOQ 可 比 H. 264/ 
AVC 提高 编码 效率 5% 左右 (亮度 ) ， 当 然 带 来 的 负面 影响 是 计算 复杂 度 的 增加 。 


6.4.6 环 路 滤波 


环 路 滤波 〈Loop Filtering) 位 于 编码 器 预测 环 路 中 的 反 量化 / 反 变 换 单元 之 后 、 重 建 的 运动 
补偿 预测 参考 帧 之 前 。 因 而 ， 环 路 滤波 是 帧 间 预 测 环 路 的 一 部 分 ， 属 于 环 内 处 理 ， 而 不 是 环 外 的 
后 处 理 。 环 路 滤波 的 目标 就 是 消除 编码 过 程 中 预测 、 变 换 和 量化 等 环节 引入 的 失真 。 由 于 滤波 是 
在 预测 环 路 内 进行 的 ， 减 少 了 失真 ， 存 储 后 为 运动 补偿 预测 提供 了 较 高 质量 的 参考 帧 。 

HEVC 指定 了 两 种 环 路 滤波 器 ， 即 去 方块 效应 滤波 器 (DeBlocking Filter，DBF) 和 样 值 自 适 
应 偏 移 (Sample Adaptive Offset，SAO) 滤波 器 ， 均 在 帧 间 预 测 环 路 中 进行 。 

1. 去 方块 效应 滤波 器 

方块 效应 是 由 于 采用 图 像 分 块 压缩 方法 所 形成 的 一 种 图 像 失真 ， 尤 其 在 块 的 边界 处 更 为 花 
上 腿 。 为 了 消除 这 类 失真 ， 提 高 重建 视频 的 主观 和 客观 质量 ，H. 264/AVC 在 方块 的 边界 按照 “ 边 
界 强度 ”进行 自 适应 低 通 滤波 ， 又 称 去 方块 效应 滤波 。HEVC 也 使 用 了 类 似 的 环 内 去 方块 效应 滤 
波 来 减轻 各 种 单元 边界 (如 CU、PU、TU 等 ) 的 块 效应 。HEVC 为 了 减少 复杂 性 ， 利 于 简化 硬 
件 设计 和 并 行 处 理 ， 不 对 4 x4 的 块 边界 滤波 ， 且 仅 定义 了 3 个 边界 强度 等 级 (0、1 和 2) ， 仅 对 
边界 附近 的 像素 进行 滤波 ， 省 却 了 对 非 边界 处 像素 的 处 理 。 在 滤波 前 ， 对 于 每 一 个 边界 需要 判定 
是 否 需 要 进行 去 方块 效应 滤波 ? 如 果 需 要 ， 还 要 判定 到 底 是 进行 强 滤波 还 是 弱 滤 波 。 判 定 是 根据 
穿越 边界 像素 的 梯度 值 以 及 由 此 块 的 量化 参数 QP 导出 的 门限 值 共同 决定 的 。HEVC 的 去 方块 效 
应 滤波 对 需要 进行 滤波 的 各 类 边界 统一 进行 ， 先 对 整个 图 像 的 所 有 垂直 边界 进行 水 平方 向 滤波 ， 
然后 再 对 所 有 的 水 平 边界 进行 垂直 方向 滤波 。 

2. 样 值 自 适 应 偏 移 

样 值 自 适应 偏 移 (SAO) 是 HEVC 中 新 引入 的 一 项 提高 解码 图 像 质量 的 工具 ， 作 用 于 去 方块 
效应 滤波 之 后 的 解码 图 像 。 它 先 按 照 像素 的 灰 度 值 或 边缘 的 性 质 ， 将 像素 分 为 不 同 的 类 型 ， 然 后 
按照 不 同 的 类 型 为 每 个 像素 值 加 上 相应 的 偏 移 量 ， 从 而 降低 图 像 的 整体 失真 并 减少 振 铃 效应 。 
采用 SAO 后 ， 平 均 可 以 减少 2% ~6% 的 码 流 ， 而 编 解码 器 的 复杂 度 仅 增加 约 2% 。 

HEVC 中 SAO 处 理 的 基本 单元 是 CTB。 对 于 每 个 CTB ，SAO 可 以 使 用 /禁用 一 种 或 者 两 种 模 
式 : 带 状 偏 移 (Band Offset，BO) 模式 和 边缘 偏 移 (Edge Offset，EO) 模式 。 编 码 器 对 图 像 的 不 
同 区 域 选 择 施加 BO 模式 或 E0 模式 的 偏 移 ， 并 在 码 流 中 给 出 相应 的 标识 。 

BO 模式 将 像素 值 从 0 到 最 大 值 分 为 32 个 相等 的 间隔 “ 带 (Bands)”， 例如， 对 8bit 量 
化 而 言 ， 有 256 个 灰 度 级 ， 则 设 定 带 的 宽度 为 256/32 =8， 每 个 带 所 包含 的 像素 值 都 比较 相近 。 
如 果 某 个 CTB 的 亮度 值 分 布 在 4 个 相 邻 的 带 中 间 ， 说 明 这 原本 是 一 个 比较 平坦 的 图 像 区 域 ， 这 
样 的 区 域 容易 出 现 带 状 干扰 和 边缘 振荡 效应 ， 则 需 对 这 些 像素 值 施加 偏 移 量 (可 正 可 负 ) ， 使 像 
素 值 的 分 布 趋向 更 集中 。 当 然 这 个 偏 移 量 也 要 作为 带 状 偏 移 传输 到 解码 端 。 

EO 模式 是 对 某 个 特定 边缘 方向 的 像素 依据 其 与 相 邻 像素 灰 度 值 的 差异 进行 分 类 ， 从 而 对 不 
同类 别 的 像素 分 别 加 上 相应 的 偏 移 值 。E0 模式 使 用 一 种 如 图 6-30 所 示 的 “三 像素 结构 ”来 对 所 
处 理 的 像素 进行 分 类 ， 定 义 了 水 平 、 垂 直 、135° 和 45° 四 个 方向 的 结构 。 图 6-30 中 ，e 表示 当前 
待 处 理 的 像素 ，a 和 b 表示 两 个 相 邻 的 像素 。 

通过 比较 像素 c 与 a、b 的 灰 度 值 ， 将 当前 像素 分 为 4 类 。 分 类 的 准则 如 表 6-10 所 示 。 其 中 ， 
类 别 1 表示 当前 像素 为 谷底 像素 〈 其 值 小 于 相 邻 的 2 个 像素 ) ， 类 别 4 表示 当前 像素 为 波峰 像素 
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(其 值 大 于 相 邻 的 2 个 像素 ); 类 


别 2 和 类 别 3 分 别 表示 当前 像素 为 | | | | | | fof 
凹 拐点 和 凸 拐点 ; 类 别 0 表示 其 圆 四面 画图 画 图 加 加 融 回 夯 
他 情况 ， 不 进行 边缘 补偿 对 类 | | [| | 


别 1 和 类 别 2 加 上 正 的 偏 移 值 可 以 
达到 平滑 的 目的 。 相 反 ， 对 类 别 3 _ 
和 类 别 4 加 上 负 的 偏 移 值 是 则 起 OD 

到 平滑 的 作用 。 在 编码 偏 移 值 时 无 须 对 符号 进行 编码 ， 而 是 根据 像素 类 别 的 不 同 判定 偏 移 值 的 
符号 ， 从 而 减少 编码 偏 移 值 所 需要 的 比特 数 。 


表 6-10 边缘 像素 分 类 的 准则 



















































































类 别 准 “ 则 
1 c<a 且 c<b 
2 (ec<a 且 c=b) 或 (c=a 且 c<Db) 
3 (ce>a 且 c=b) 或 (c=a 且 c>pb) 
4 c>a 且 c>b 
0 其 他 














6.4.7 上 下 文 自 适应 的 精 编 码 


常见 的 炉 编码 包括 较为 简单 的 变 长 编码 (如 Huffman 编码 ) 和 效率 较 高 的 算术 编码 两 大 类 。 
如 果 将 编码 方式 和 编码 的 内 容 联系 起 来 ， 则 可 获得 更 高 的 编码 效率 ， 这 就 是 常见 的 上 下 文 自 适 
应 的 可 变 长 编码 (Context Adaptive Variable Length Coding，CAVLC) 和 上 下 文 自 适 应 的 二 进 制 算 
术 编 码 ( Context Adaptive Binary Arithmetic Coding，CABAC ) 。 这 两 类 炉 编 码 都 是 高 效 、 无 损 的 炉 
编码 方法 ， 尤 其 是 在 高 码 率 的 情况 下 更 是 如 此 ， 此 时 量化 参数 (QP) 比较 小 ， 码 流 中 变换 系数 
占 绝 大 部 分 。 当 然 其 计算 量 也 较 之 常规 的 变 长 编码 、 算 术 编 码 要 高 。 

HEVC 标准 中 使 用 的 上 下 文 自 适应 的 二 进 制 算术 编码 (CABAC) 与 H.264/AVC 中 使 用 的 
CABAC 基本 类 似 ， 除 了 上 下 文 建 模 过 程 中 概率 码 表 需 要 重新 布置 以 外 ， 在 算法 上 并 没有 什么 变 
化 。 但 是 HEVC 充分 考虑 了 提高 糯 编码 吉 的 看 吐 率 和 并 行 化 ， 以 适应 编码 高 分 辩 率 视频 时 的 实时 
性 要 求 。 因 此 ，HEVC 中 CABAC 编码 器 的 上 下 文 数量 、 数 据 间 的 相互 依赖 性 减少 ， 对 相同 上 下 
文 的 编码 符号 进行 组 合 、 对 通过 旁 路 编码 的 符号 进行 组 合 ， 同 时 减少 解析 码 流 时 的 相互 依赖 性 
以 及 对 内 存 读 取 的 需求 。 

CABAC 编码 主要 包括 以 下 三 个 模块 。 

1. 语法 元 素 的 二 值 化 

与 H.264/AVC 类 似 ，HEVC 标准 采用 了 相似 的 几 种 二 值 化 编码 方式 ， 主 要 有 截断 一 元 
(Truncated unary) 编码 、 截 断 Rice (Truncated Rice) 编码 、% 阶 指数 哥伦布 (k-th order Exp- 
Golomb) 编码 以 及 定 长 编码 。 二 值 化 的 输入 是 帧 内 或 帧 间 预 测 的 预测 信息 以 及 变换 量化 后 的 残 差 
言 息 ， 输 出 是 对 应 的 二 进 制 字符 串 。 

2. 上 下 文 建 模 

实际 计算 过 程 中 ， 输 入 二 进 制 字符 的 概率 分 布 是 动态 变化 的 ， 所 以 需要 维护 一 个 概率 表格 来 保 
存 每 个 字符 概率 变化 的 信息 。 上 下 文 建 模 过 程 就 是 根据 输入 的 二 进 制 字符 串 和 相应 的 编码 模式 ， 提 
取保 存 的 概率 状态 值 来 估计 当前 字符 的 概率 ， 并 在 字符 计算 完成 后 对 其 状态 值 进行 刷新 。 
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3. 算术 编码 
算术 编码 模块 采用 
算 区 间 的 下 限 Low 值 和 宽度 Range 值 。 


6. 4.8 并行 化 处 理 























当前 集成 电路 芯片 的 架构 已 经 从 单 核 逐 渐 生 





区 间 递 进 的 原理 根据 每 个 字符 串 的 概率 对 字符 流 进行 


编码 ， 不 断 更 新 计 





主 多 核 并 行 方向 发 展 ， 因 此 为 了 适应 并 行 化 程度 


EN H. 265AHEVC 引入 了 很 多 并 行 运算 的 优化 思路 。 


. 条 带 的 划分 
H. 264/AVC 类 似 ，HEVC 
像 是 一 个 或 多 个 条 














册 人 允许 将 图 像 帧 划分 成 一 个 或 多 个 
带 的 集合 。 条 带 是 帧 中 按 光 栅 扫 描 顺 序 排列 的 编码 树 单元 (CTU) 序列 。 
条 带 可 以 独立 解码 ， 因 为 条 带 内 像素 的 预测 编码 不 能 跨越 条 带 的 边界 。 所 以 ， 引 入 “ 


( Slice ) ， 0 


十 HP ?9 
“条 带 








-HH yy 上 
条 中 Ee 








构 的 主要 目的 是 为 了 在 传输 中 遭遇 数据 丢失 后 实现 重 同 步 。 每 个 条 带 可 携带 人 





受 限 ， 因 此 根据 视频 场景 的 运动 程度 ， 
按照 编码 类 型 的 不 同 分 为 如 下 3 种 类 型 。 
1) I 条 带 (I slice): 

2) P 条 带 (P slice): 





























即 单 向 预测 ， 
3) B 条 带 


并 且 只 使 用 参考 图 像 列 表 0。 
(B slice): 














条 带 所 包含 的 CTU 数量 可 能 有 很 大 不 同 。 





每 个 条 带 可 以 


I 条 带 中 的 所 有 编码 单元 (CU) 都 仅 使 用 帧 内 预测 进行 编码 。 
P 条 带 中 的 有 些 编码 单元 (CU) 除了 使 用 帧 内 预测 进行 编码 外 ， 还 可 
以 使 用 帧 间 预 测 进行 编码 。 在 帧 间 预 测 时 ， 

















每 个 预测 块 (PB) 至 多 只 有 1 个 运动 补偿 预测 信号 


B 条 带 中 的 有 些 编码 单元 (CU) 除 
进行 编码 外 ， 还 可 以 使 用 帧 间 双 向 预测 进行 编码 ， 即 每 个 预测 块 (PB) 至 多 有 2 个 运动 补偿 预 











除了 使 用 P 条 带 中 所 用 的 编码 类 型 

















测 信 号 ， 既 可 以 使 用 参考 图 像 列 表 0， 也 可 以 使 用 参考 图 像 列表 1。 


图 6-31 示例 了 一 帧 图 像 划 分 为 个 条 

条 带 的 划分 以 CTU 为 界 。 为 了 支 
某 一 个 条 带 可 以 划 
(Entro- 
每 个 ES 都 可 独立 地 进行 箭 
解码 ， 而 无 须 参考 其 他 的 ES。 如 在 多 核 的 并 
就 可 以 安排 每 个 核 单 独处 理 一 个 





带 的 情形 ， 
持 并 行 运算 和 差错 控制 ， 
分 为 更 小 的 条 带 ， 称 之 为 “ 炉 条 带 ” 
ES) 。 








py Slice, 








行 处 理 中 ， 





ES。 在 HEVC 的 码 流 中 ， 网 络 抽象 层 ( Net- 


work Abstraction Layer， 





NAL) 比特 流 的 格式 


图 





符合 H.264/AVC 的 Annex B， 但 是 在 NAL 


头 信 
输 单 元 (Maximum Transmission Unit ， 
2. 片 的 划分 

除了 
码 的 并 行 处 理 能 








“条 带 ” 之 外 ，HEVC 还 新 引入 了 “ 片 ， 
力 。 片 是 一 个 自 包 容 的 、 可 以 独立 进行 解码 的 矩形 区 域 ， 包 含 多 个 按 和 矩形 排列 的 





6-31 





er re 


le 


区 加 


CTU| …Slice 2… 


加 
Ee ee ere 


一 帧 图 像 划 分 为 NN 个 条 带 (Slice) 的 示例 





息 增加 了 1 B 的 HEVC 标注 信息 。 每 个 条 带 编码 为 一 个 NAL 单元 ， 其 容量 小 于 等 于 最 大 传 
MTU) 容量 。 


(Tile) 的 划分 ， 其 主要 目的 是 为 了 增强 编 解 


CTU。 每 个 片 中 包含 的 CTU 数目 不 要 求 一 定 相 同 , 但 典型 情况 下 所 有 片 中 的 CTU 数 相同 。 通 过 


将 多 个 片 包含 在 同一 个 条 带 中 ， 可 以 共享 条 带 
图 6-32 示例 了 一 帧 图 像 划分 为 Y 个 片 的 情形 。 在 编码 时 ， 图 像 中 的 片 是 按照 光栅 扫描 顺序 进行 
进行 。 在 HEVC 中 ， 人 允许 条 带 和 片 在 同一 图 像 帧 
条 带 中 包含 若干 个 片 ， 也 可 以 一 个 片 中 包含 若干 个 条 带 。 











处 理 ， 
中 同时 使 用 ， 既 可 以 一 个 条 
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每 个 片 中 的 CTU 也 是 按照 光栅 扫描 顺序 





的 头 信 息 。 反 之 ， 


一 个 片 也 可 以 包含 多 个 条 带 。 
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3. 波 前 并 行 处 理 

考虑 到 高 清 、 超 高 清 视频 编码 的 巨大 运算 
量 ，HEVC 提供 了 基于 条 带 和 基于 片 的 便于 并 
行 编码 和 解码 处 理 的 机 制 。 然 而 ， 这 样 又 会 引 
起 编码 性 能 的 降低 ， 因 为 这 些 条 带 和 片 是 独立 
预测 的 ， 打 破 了 穿越 边界 的 预测 相关 性 ， 每 个 
条 带 或 片 的 用 于 炉 编 码 的 统计 必须 从 头 开 始 。 
为 了 避免 这 个 问题 ，HEVC 提出 了 一 种 称 为 波 
前 并 行 处 理 (Wavefront Parallel Processing， 图 6-32 一 帧 图 像 划分 为 W 个 片 (Tile) 的 示例 
WPP) 的 烂 编码 技术 ， 在 炉 编码 时 不 需要 打破 
预测 的 连贯 性 ， 尽 可 能 多 地 利用 上 下 文 信息 。 

波 前 并 行 处 理 按照 CTU 行进 行 。 不 论 是 在 编 
码 过 程 还 是 解码 过 程 中 ， 一 旦 当前 CTU 行 上 的 前 “Thedl 
两 个 CTU 的 编 解 码 完 成 后 ， 即 可 开始 下 一 CTU 行 Thead2 |crulerul cru| cru 
的 处 理 ， 通 常 开 启 一 个 新 的 并 行 线程 (Thread ) ， 本 区 昌 莉 
其 过 程 如 图 6-33 所 示 。 之 所 以 在 处 理 完 当 前 CTU 
行 上 的 前 两 个 CTU 之 后 才 开始 下 一 CTU 行 的 凡 编 
码 ， 是 因为 帧 内 预测 和 运动 矢量 预测 是 基于 当前 
CTU 行 上 侧 和 左 侧 的 CTU 的 数据 。WPP 炉 编 码 参 
数 的 初始 化 所 需要 的 信息 是 从 这 两 个 完全 编码 的 
CTU 中 得 到 的 ， 这 使 得 在 新 的 编码 线程 中 使 用 尽 图 6-33” 波 前 并 行 处 理 示 意图 
可 能 多 的 上 下 文 信息 成 为 可 能 。 使 用 波 前 并 行 处 
理 的 炉 编 码 技 术 ， 相 对 于 每 个 CTU 行 独立 编码 有 更 高 的 编码 效率 ， 相 对 于 串 行 编码 来 说 有 更 好 
的 并 行 处 理 能 


6.4.9 HEVC 的 语法 和 语义 


为 了 和 现 已 广泛 使 用 的 H. 264/AVC 编码 器 尽量 兼容 ，HEVC 编码 器 也 使 用 H. 264/AVC 的 
NAL 单元 语法 结构 。 每 个 语法 结构 放 入 NAL 单元 这 一 逻辑 数据 包 中 。 利 用 2 字 节 的 NAL 单元 
头 ， 容 易 识 别 携带 数据 的 内 容 类 型 。 为 了 传输 全 局 参数 (如 视频 序列 的 分 辨 率 、 彩 色 格 式 、 最 
大 参考 帧 数 、 起 始 QP 值 等 ) ， 采 用 H. 264/AVC 的 序列 参数 集 (Sequence Parameter Set，SPS) 和 
图 像 参数 集 ( Picture Parameter Set，PPS) 语法 和 语义 。HEVC 的 条 带 (Slicee) 的 头 信 息 的 语法 
和 语义 同 H. 264/AVC 的 语法 和 语义 非常 接近 ， 只 是 增加 了 一 些 必 要 的 新 的 编码 工具 。 


6.4.10 HEVC 的 类 、 级 和 层 


为 了 提供 应 用 的 灵活 性 ，HEVC 设置 了 编码 的 不 同 的 类 (Profile)、 级 (Level) 和 层 
(Tier) 。 

1. 类 

类 规定 了 一 组 用 于 产生 不 同 用 途 码 流 的 编码 工具 或 算法 ， 也 就 是 一 组 编码 工具 或 算法 的 集 
合 。 目 前 ，HEVC 标准 定义 了 三 种 类 : 主 类 (Main Profile) 、 主 10 类 (Main 10 Profile) 和 主 静 态 
图 像 类 (Main Still Picture Profile ) 。 

主 类 支持 每 个 颜色 分 量 以 8bit 表示 。 
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主 10 类 支持 每 个 颜色 分 量 以 8bit 或 者 10bit 表示 。 表 示 颜 色 的 比特 数 越 多 ， 颜 色 种 类 就 越 丰 
富 。10bit 的 精度 将 改善 图 像 的 质量 ， 并 文 持 超 高 清 电视 (UHDTV) 采用 的 Rec. 2020 颜色 空间 。 

主 静 态 图 像 类 允许 静态 图 像 按 照 主 类 的 规定 进行 编码 。 

目前 ， 上 述 三 个 类 存在 以 下 限制 条 件 。 

1) 仅 支 持 4 : 2 : 0 的 色 度 采样 格式 。 

2) 波 前 并 行 处 理 (WPP) 和 片 (Tile) 结构 可 选 。 若 选用 了 Tile 结构 ， 则 不 能 使 用 WPP， 
且 每 一 个 Tile 的 大 小 至 少 应 为 64 像素 高 x256 像素 宽 。 

3) 主 静 态 图 像 类 不 支持 帧 间 预 测 。 

4) 解码 图 像 的 缓存 容量 限制 为 6 幅 图 像 ， 即 该 类 的 最 大 图 像 缓 存 容量 。 

未 来 的 类 扩展 主要 集中 在 比特 深度 扩展 、4 :2 : 2 或 4 :4 :4 色 度 采样 格式 、 多 视点 视频 编 
码 和 可 分 级 编码 等 方面 。 

2. 级 

目前 ，HEVC 标准 设置 了 1、2、2.1、3、3.1、4、4.1、5、5.1、5.2、6、6.1、6.2 等 13 个 
不 同 的 级 。 一 个 “级 ”实际 上 就 是 一 套 对 编码 比特 流 的 一 系列 编码 参数 的 限制 ， 如 支持 4: 2 :0 
格式 视频 ， 定 义 的 图 像 分 辨 率 从 176 x 144(QCIF) 到 7680 x4320(8K x4K) ， 限 定 最 大 输出 码 率 
等 。 如 果 说 一 个 解码 右 具 备 解码 某 一 级 码 流 的 能 力 ， 则 意味 着 该 解码 器 具有 人 解码 这 一 级 以 及 低 
于 这 一 级 所 有 码 流 的 能 

3. 层 

对 于 4、4.1、5、5.1、5.2、6、6.1、6.2 级 ， 按 照 最 大 码 率 和 缓存 容量 要 求 的 不 同 ，HEVC 
设置 了 两 个 层 (Tier) : 高 层 (High Tier) 和 主 层 (Main Tier) 。 主 层 可 用 于 大 多 数 场 合 ， 要 求 码 
率 较 低 ; 高 层 可 用 于 特殊 要 求 或 高 需求 的 场合 ， 允 许 码 率 较 高 。 对 于 1、2、2.1、3、3.1 级 , 仅 
支持 主 层 ( Main Tier) 。 

符合 某 一 层 / 级 的 解码 器 应 能 够 解码 当前 以 及 比 当 前 层 / 级 更 低 的 所 有 码 流 。 
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6.5 AVS 与 AVS + 视频 编码 标准 





AVS 视频 编码 标准 主要 是 为 了 适应 数字 电视 广播 、 数 字 存 储 媒 体 、 因 特 网 流 媒体 、 多 媒体 
通信 等 应 用 中 大 斥 寸 、 高 质量 的 运动 图 像 压 缩 的 需要 而 制定 的 。 它 以 H. 264 框架 为 基础 ， 强 调 
自主 知识 产权 ， 同 时 充分 考虑 了 实现 的 复杂 度 ， 进 行 了 针对 性 的 优化 。 可 以 说 ，AVS 视频 编码 
标准 是 在 H. 264 的 基础 上 发 展 起 来 的 ， 采 用 了 H. 264 中 的 优秀 算法 思想 ， 但 为 了 避 开 专利 问题 ， 
又 不 得 不 放弃 了 H. 264 标准 采用 的 一 些 核心 技术 。 因 而 ， 从 总 体 框架 结构 上 说 ，AVS 视频 编码 标 
准 和 HH. 264 非常 相似 ， 但 在 技术 细节 上 做 了 较 多 的 改动 ， 以 适应 高 清晰 度数 字 电 视 等 应 用 目标 
的 具体 需求 。 


6.5.1 AVS1-P2 


GB/T 20090. 2 一 2006《 信 息 技术 先进 音 视 频 编码 第 2 部 分 : 视频 》 (简称 AVS1-P2) 已 于 
2006 年 2 月 颁布 为 国家 标准 。AVS1-P2 主要 面向 高 清晰 度数 字 电 视 广 播 、 网 络 电视 、 高 密度 激 
光 数 字 存 储 媒 体 以 及 其 他 相关 应 用 。 根 据 业务 的 需要 ，AVS1-P2 标准 同样 定义 了 “类 ” ( Profile) 
和 “级 ”(Level) 。 目 前 ，AVS1-P2 标准 定义 了 一 个 基准 类 和 该 类 下 的 四 个 级 ， 分 别 是 用 于 标准 
清晰 度 电 视 的 4.0 (4 :2 : 0 采样 格式 ) 和 4.2 (4 : 2 : 2 采样 格式 ) 级 以 及 用 于 高 清晰 度 电视 
的 6.0 (4 : 2 :0 采样 格式 ) 和 6.2 (4 :2 : 2 采样 格式 ) 级 。 与 H.264 的 基本 类 相 比 ，AVS1- 
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P2 标准 增加 了 B 帧 、 隔 行 扫描 等 技术 ， 因 此 其 压缩 效率 明显 提高 ;而 与 H.264 的 主 类 相 比 ， 又 
去 掉 了 CABAC 等 实现 难度 大 的 技术 ， 从 而 增强 了 可 实现 性 。 
1. AVS1-P2 编码 器 框架 
与 H.264 类 似 ，AVS1-P2 也 采用 混合 编码 框架 ， 主 要 包括 帧 内 预测 、 帧 间 预 测 、 变 换 与 量 
化 、 环 路 滤波 、 信 编 码 等 技术 模块 ， 其 编码 右 的 原理 框图 如 图 6-34 所 示 ， 其 中 S, 是 帧 内 / 帧 间 预 
测 模 式 选 择 开 关 。 







































































































控制 数据 





量化 后 变换 系数 

















i 











图 6-34 AVS1-P2 编码 器 原理 框图 





2. AVS1-P2 视频 码 流 的 分 层 结构 

AVS1-P2 标准 采用 了 与 H. 264 类 似 的 比特 流 分 层 结构 ， 视 频 基 本 码 流 共 分 为 五 层 ， 从 高 到 
低 依次 为 视频 序列 层 、 图 像 层 〈 帧 层 ) 、 条 带 层 、 宏 块 层 、 块 层 ， 如 图 6-35 所 示 。 

(1) 视频 序列 

视频 序列 是 AVS1-P2 视频 编码 比特 流 的 最 高 层 语法 结构 。 它 包含 序列 头 和 图 像 数 据 ， 网 像 
数据 紧 跟 在 序列 头 后 面 。 为 了 支持 随机 访问 视频 序列 ， 序 列 头 可 以 重复 插入 比特 流 ， 图 像 数据 可 
以 包含 一 帧 或 多 帧 图 像 。 序 列 头 以 视频 序列 起 始 码 作为 序列 开始 的 标志 ， 而 序列 结束 码 则 代表 
序列 完结 。AVS1-P2 中 所 有 起 始 码 均 由 前 级 和 码 值 组 成 并 按 字 节 对 齐 ， 其 长 度 为 4 字 节 。 前 级 占 
据 前 3 字 节 ， 表 明 该 码 流 为 起 始 码 ; 码 值 为 最 后 1 字 节 ， 表 示 具 体 的 起 始 码 类 型 。 

AVS1-P2 标准 规定 了 两 种 不 同 的 序列 : 逐 行 序列 和 隔行 序列 。 隔 行 扫描 帧 图 像 由 两 场 组 成 ， 
每 场 又 由 若干 行 组 成 ， 奇 数 行 和 偶数 行 各 构成 一 场 ， 分 别称 为 顶 场 和 底 场 。 帧 和 场 的 邻近 行 相关 
性 并 不 相同 。 帧 的 邻近 行 空间 相关 性 强 ， 时 间 相 关 性 弱 ， 因 为 某 行 的 邻近 行 (下 一 行 ) 要 一 场 
扫描 完 才 能 被 扫描 ， 在 压缩 静止 图 像 或 运动 量 不 大 的 图 像 时 采用 帧 编码 方式 。 场 的 邻近 行 时 间 
相关 性 强 ， 空 间 相关 性 差 ， 因 为 场 的 一 行 扫描 完毕 ， 接 着 对 场 中 下 一 行 扫描 。 因 此 对 运动 量 大 的 
图 像 常 采用 场 编码 方式 。 在 比特 流 中 ， 隔 行 扫描 图 像 的 两 场 的 编码 数据 可 依次 出 现 ， 也 可 交织 出 
现 。 两 场 数据 的 解码 和 显示 顺序 在 图 像 头 中 规定 。 
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(2) 图 像 

图 像 也 就 是 通常 所 说 的 一 帧 图 像 ， 每 ”序列 
帧 图 像 数据 以 图 像 头 开始 ， 后 面 跟着 具体 
图 像 数 据 ， 出 现 三 种 情况 代表 图 像 数 据 结 
东 : 下 一 序列 开始 、 序 列 结束 或 下 一 帧 图 
像 开 始 。 

解码 器 的 输出 是 一 系列 帧 ， 两 帧 之 间 条 带 
存在 着 一 个 帧 时 间 间 隔 。 对 隔行 序列 而 言 ， 
每 帧 图 像 的 两 场 之 间 存 在 着 一 个 场 时 间 间 
隔 。 对 逐 行 序列 而 言 ， 每 帧 图 像 的 两 场 之 。 宪 块 
间 时 间 间 隔 为 0。 

AVS1-P2 标准 定义 了 三 种 图 像 编码 类 
型 : I 帧 、P 帧 、B 帧 。I 帧 以 当前 帧 内 已 次 
编码 像素 为 参考 ， 只 能 以 帧 内 预测 模式 编 
码 。P 帧 则 最 多 可 参考 前 向 的 两 帧 已 编码 图 6-35 AVS1-P2 视频 码 流 的 分 层 结构 
图 像 和 帧 内 像素 ， 可 以 采用 帧 内 预测 和 帧 
间 预 测 模式 编码 。 对 P 帧 编码 时 ， 参 考 帧 应 向 四 周 外 扩 16 个 像素 ， 以 便当 运动 矢量 所 引用 的 像 
素 超出 参考 图 像 的 边界 时 使 用 ， 外 扩 位 置 的 整数 样本 值 取 与 该 位 置 最 近 的 图 像 边 缘 的 整数 样本 
值 。B 帧 可 参考 一 前 一 后 的 两 帧 图 像 。 如 果 视 频 序列 中 没有 B 帧 ， 解 码 顺 序 与 显示 顺序 相同 。 如 
果 视 频 序列 中 包含 B 帧 ， 解 码 顺序 与 显示 顺序 不 同 ， 解 码 图 像 输 出 显示 前 应 进行 图 像 重 排序 。 

(3) 条 带 

条 带 是 一 帧 图 像 中 按 光 栅 扫 描 顺 序 连 续 的 若干 宏 块 行 。AVS1-P2 中 采用 的 条 带 划 分 与 H. 264 
不 同 ， 它 采用 了 简单 的 按 整个 宏 块 行 划分 的 方式 ， 即 同一 行 的 宏 块 只 能 属于 一 个 条 带 ， 而 不 会 出 
现 一 行 宏 块 分 属 不 同 条 带 的 情况 。 按 条 带 划 分 图 像 是 为 了 增强 抗 干扰 能 力 ， 同 时 也 增加 并 行 性 
方便 同时 处 理 各 条 带 。 因 而 实际 编 解码 时 均 以 条 带 为 单位 进行 独立 编码 ， 无 论 是 帧 内 编码 还 是 
帧 间 编 码 均 不 能 使 用 当前 图 像 中 其 他 条 带 的 数据 ， 比 如 帧 间 运 动 矢量 预测 时 便 不 能 使 用 属于 其 
他 条 带 的 相 邻 块 。 条 带头 信息 包含 了 条 带 在 图 像 中 的 位 置 、 条 带 量化 参数 等 ， 之 后 是 条 带 内 部 的 
各 个 宏 块 数据 信息 。 

(4) 宏 块 

条 带 可 以 进一步 划分 为 宏 块 ， 宏 块 是 AVS1-P2 编 解 码 过 程 的 基本 单元 。 一 个 宏 块 大 小 为 
16 x16， 对 于 4 : 2 : 0 采样 格式 图 像 ， 一 个 宏 块 包括 一 个 16 x 16 的 亮度 块 和 2 个 8 x8 色 度 块 。 
为 了 支持 不 同 模式 的 运动 估计 ， 宏 块 可 按 图 6-36 所 示 划 分 为 更 小 的 子 块 ， 这 种 划分 用 于 运动 补 
涯 。 图 6-36 中 矩形 里 的 数字 表示 宏 块 划分 后 运动 矢量 和 参考 索引 在 码 流 中 的 顺序 。 
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图 6-36 AVS1-P2 中 的 宏 块 划分 
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(5) 块 

宏 块 是 AVS1-P2 编码 过 程 的 基本 单元 ,但 无 论 是 以 哪 种 模式 划分 宏 块 ， 实 际 码 流 处 理 时 均 
以 8 x8 块 为 最 小 的 编码 单元 。 

在 H.264 标准 中 ， 运 动 补偿 预测 和 变换 的 最 小 单元 都 是 4 x4 像素 块 。 显 然 ， 块 的 尺寸 越 小 ， 
帧 内 和 帧 间 的 预测 越 准确 ， 预 测 的 残 差 越 小 ， 便 于 提高 压缩 效率 ; 但 同时 更 多 的 运动 矢量 和 帧 内 
预测 模式 等 附加 信息 的 传递 将 花费 更 多 的 比特 。 实 验 表明 ， 在 高 分 辨 率 情况 下 ，8 x 8 块 的 性 能 
比 4 x4 块 更 优 ， 因 此 在 AVS1-P2 中 的 最 小 块 单元 为 8 x8 像素 。 

3. 主要 技术 

(1) 帧 内 预测 

帧 内 预测 技术 用 于 去 除 当 前 图 像 中 的 空间 宛 余 度 。 由 于 当前 被 编码 的 块 与 相 邻 的 块 有 很 强 
的 相似 性 ， 因 此 在 AVS1-P2 中 的 帧 内 预测 用 于 计算 当前 被 编码 的 块 与 其 相 邻 块 之 间 的 空间 相关 
性 ， 以 提高 编码 效率 。 在 帧 内 预测 中 ， 当 前 被 编码 的 块 由 其 上 方 及 左 方 已 解码 的 块 来 预测 ， 上 方 
或 左 方块 应 该 与 当前 块 属于 同一 条 带 ， 而 且 当 隔行 扫描 图 像 的 两 场 编码 数据 依次 出 现时 ， 它 们 
还 应 属于 同一 场 。 相 邻 已 解码 块 在 环 路 滤波 前 的 重建 像素 值 用 来 给 当前 块 做 参考 。 
AVS1-P2 的 帧 内 预测 技术 沿袭 了 H. 264/MPEG-4 AVC 帧 内 预测 的 思路 ， 用 相 邻 块 的 像素 预 
测 当 前 块 ， 采 用 基于 空间 域 纹理 方向 的 多 种 预测 模式 。 
H. 264/AVC 根据 图 像 纹理 细节 的 不 同 ， 将 亮度 信号 的 帧 内 预测 分 为 9 种 4x4 块 的 预测 方式 
和 4 种 16x16 块 的 预测 方式 。 但 在 AVS1-P2 中 ， 亮 度 块 和 色 度 块 的 帧 内 预测 都 是 以 8 x8 块 为 单 
位 。 亮 度 块 采用 5 种 预测 模式 ， 色 度 块 采用 4 种 预测 模式 ， 如 表 6-11 所 示 。 而 色 度 块 预测 模式 
中 有 3 种 预测 模式 和 亮度 块 预测 模式 相同 ， 因 此 使 得 预测 复杂 度 大 大 降低 。 实 验 结果 表明 ， 虽 然 
AVS1-P2 采用 了 较 少 的 预测 模式 ,但 是 编码 质量 并 没有 受到 较 大 影响 ， 相 比 H. 264 标准 而 言 ， 
只 有 很 少 的 降低 。 





















































表 6-11 帧 内 预测 模式 























亮 度 块 色 度 块 
模 式 名 称 模 式 名 称 
0 Intra_8 x 8_Vertical 0 Intra_Chroma_DC 
1 Intra_8 x 8_Horizontal 1 Intra_Chroma_Horizontal 
2 Intra_ 8 x8_DC 2 Intra_Chroma_Vertical 
3 Intra_8 x 8_Down_Left 3 Intra_Chroma_Plane 
4 Intra_8 x 8_Down_Right 一 一 











图 6-37 所 示 为 8 x8 亮度 块 帧 内 预测 方向 示意 图 。 图 中 的 4 种 预测 方向 与 表 6-11 相对 应 ， 分 
别 为 模式 0 (垂直 预测 ) 、 模 式 1 (水 平 预测 ) 、 模 式 3 (左下 对 角 线 预测 )、 模 式 4 ( 右 下 对 角 线 
预测 )， 模式 2 (DC 预测 ) 没有 预测 方向 。 当 前 块 内 像素 由 其 上 边 和 左边 的 参考 样本 r[i] (i= 
0，…，16) 和 ef 让 人 =0，…，16) 来 预测 ， 其 中 r[0] 等 于 c[0]。 色 度 块 的 帧 内 预测 模式 和 
亮度 块 类 似 ， 分 别 为 模式 0 (DC 预测 ) 、 模 式 1 (水 平 预测 ) 、 模 式 2 (垂直 预测 )、 模 式 3 ( 平 
面 预测 ) ， 相 同位 置 的 两 个 色 度 块 C, 、C, 具有 相同 的 最 佳 模式 。 

与 H. 264 中 以 4 x4 块 为 单位 的 帧 内 预测 相 比 ， 采 用 8 x8 块 预测 使 得 参考 像素 和 待 预测 像素 
的 距离 变 大 ， 从 而 减弱 相关 性 ， 降 低 预测 精确 度 。 因 此 ，AVS1-P2 中 的 Intra_8 x8_DC、Intra_ 
8 x8_Down_Left 和 Intra_8 x8_Down_Right 模式 先 采 用 3 抽 头 低 通 滤波 器 (1，2，1) 对 参考 样本 
进行 滤波 。 另 外 , 在 AVS1-P2 的 DC 模式 中 ， 所 有 像素 值 均 利用 水 平和 垂直 位 置 的 相应 参考 像素 
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像 与 视频 处 理 











值 来 预测 ， 所 以 每 个 像素 的 预测 值 都 可 能 
不 同 。 这 种 DC 预测 较 之 H.264 中 的 DC 。o% 
预测 更 精确 ， 这 对 于 较 大 的 8 x8 块 大 小 | 
来 讲 更 有 意义 。 总 体 来 说 ，AVS1- P2 中 预 了 
测 模 式 比 H. 264 少 ， 所 以 复杂 度 低 很 多 ， .4 
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但 编码 质量 下 降 仅 0. 05dB。 

(2) 帧 间 预 测 

帧 间 预 测 是 混合 编码 中 特别 重要 的 一 1 
部 分 ， 用 来 消除 视频 序列 的 时 间 宛 余 ， 过 2 
程 包含 了 帧 间 的 运动 估计 (ME) 和 运动 ”出 
补偿 (MC) 。 从 图 6-36 可 知 ，AVS1-P2 将 3 3 0 4 
用 于 帧 间 预 测 的 块 划分 为 四 类 : 16x16、 ”时 
16 x8、8x16 和 8x8。 相 比 H. 264 而 言 ， 16 
采用 少 的 块 划分 能 提高 编码 效率 ， 降 低 编 
解码 器 实现 的 复杂 度 。 图 6-37 8 x8 亮度 块 帧 内 预测 方向 示意 图 

AVS1-P2 文 持 P 帧 和 B 帧 两 种 帧 间 预 
测 图 像 。P 帧 至 多 采用 2 个 前 向 参考 帧 进行 预测 ; B 帧 采用 前 、 后 各 一 个 参考 帧 进行 预测 。 与 
H. 264 的 多 参考 帧 相 比 ，AVS1-P2 在 不 增加 存储 、 数 据 带 宽 等 资源 的 情况 下 ， 尽 可 能 地 发 挥 现 有 
资源 的 作用 ， 提 高 压缩 性 能 。 

P 帧 有 5 种 预测 模式 : P_Skip (16 x16)、P_16x16、P_16x8、P 8x16 和 P_ 8x8,。P_ 
Skip (16 x16) 模式 不 对 运动 补偿 的 残 差 进行 编码 ， 也 不 传输 运动 矢量 ， 运 动 矢量 由 相 邻 块 
的 运动 矢量 通过 缩放 而 得 ， 并 由 得 到 运动 矢量 指向 的 参考 图 像 获取 运动 补偿 图 像 。 对 于 后 4 
种 预测 模式 的 P 帧 ， 每 个 宏 块 由 2 个 候选 参考 帧 中 的 1 个 来 预测 ， 而 候选 参考 帧 为 最 近 解 码 的 
I 或 P 帧 。 对 于 后 4 种 预测 模式 的 P 场 ， 每 个 宏 块 由 最 近 解 码 的 4 个 场 来 预测 。 

B 帧 的 双向 预测 有 3 种 模式 : 跳 过 模式 、 对 称 模式 和 直接 模式 。 在 对 称 模式 中 ， 每 个 宏 块 只 
需 传 送 一 个 前 向 运动 矢量 ， 后 向 运动 矢量 由 前 向 运动 矢量 通过 一 定 的 对 称 规则 获得 ， 从 而 节省 
后 向 运动 矢量 的 编码 开销 。 在 直接 模式 中 ， 前 向 和 后 向 运动 矢量 都 是 由 后 向 参考 网 像 中 的 相应 
位 置 块 的 运动 矢量 获得 ， 无 须 传输 运动 矢量 ， 因 此 也 节省 了 运动 矢量 的 编码 开销 。 这 两 种 双向 预 
测 模式 充分 利用 了 连续 网 像 的 运动 连续 性 。 

(3) 亚 像素 精度 的 运动 估计 

由 于 物体 运动 的 不 规则 性 ， 使 得 参考 块 可 能 不 处 于 整 像 素 位 置 上 。 为 了 提高 预测 精度 ， 
AVS1-P2 和 H. 264 标准 一 样 ， 在 帧 间 运 动 估计 与 运动 补偿 预测 中 ， 亮 度 和 色 度 的 运动 矢量 精度 
分 别 为 1/4 像素 和 1/8 像素 ， 因 此 需要 相应 的 亚 像素 插值 。 但 在 具体 插值 滤波 絮 的 选择 上 ， 两 者 
有 很 大 的 不 同 。H. 264 采用 6 抽 头 滤波 器 (1/32,，5/32,，5/8，5/8，5/32，1/32) 进行 1/2 像素 
插值 ， 并 采用 双 线 性 滤波 器 进行 1/4 像素 插值 。 而 AVS1-P2 为 了 降低 复杂 度 ， 简 化 了 设计 方案 ， 
亮度 亚 像 素 插值 分 成 1/2 像素 和 1/4 像素 插值 两 步 。1/2 像素 插值 用 4 抽 头 滤波 器 H1( -1/8,，5/ 
8，5/8， 一 1/8)。1/4 像素 插值 分 两 种 情况 . 8 个 一 维 1/4 像素 位 置 用 4 抽 头 滤波 器 H2 (1716， 
7/16,7/16,，1/16); 男 外 4 个 二 维 1/4 像素 位 置 用 双 线 性 滤波 器 H3 (1/2，17Z2) 。 

与 H. 264 的 插值 算法 相 比 ，AVS1-P2 的 插值 滤波 器 使 用 的 参考 像素 点 少 ， 在 不 降低 性 能 的 
情况 下 ， 降 低 了 滤波 器 的 复杂 度 ， 减 少 了 数据 带宽 要 求 ， 有 利于 硬件 实现 ， 同 时 在 高 分 辩 率 视频 
压缩 应 用 中 略 显 优势 。 
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(4) 整数 变换 与 量化 

MPEG-1、MPEG-2、MPEG-4、H. 261 、H. 263 等 标准 均 使 用 8 x8 离散 余弦 变换 (DCT), 但 
DCT 存在 正 变换 和 反 变 换 之 间 失 配 的 问题 。 因 此 ，AVS1-P2 和 H. 264/AVC 均 采用 整数 变换 代替 
传统 的 DCT， 从 而 克服 了 之 前 视频 编码 标准 中 变换 编码 存在 的 固有 失 配 问题 。 

在 变换 块 大 小 的 选择 上 ，H. 264 标准 使 用 4 x4 块 的 整数 变换 ， 而 在 AVS1- P2 标准 中 ， 由 于 最 
小 块 预测 是 基于 8 x8 块 大 小 的 ， 所 以 ， 采 用 8 x8 块 的 整数 变换 ， 这 不 仅 避 开 了 H. 264 专利 问题 ， 
而 且 其 性 能 也 接近 8 x8 离散 余弦 变换 。AVS1-P2 采用 的 量化 与 变换 可 以 在 16 位 处 理 器 上 无 失 配 地 
实现 ， 而 且 整 数 变 换 只 需要 加 法 和 移 位 就 可 以 直接 实现 。AVS1-P2 中 的 8 x8 块 的 整数 变换 矩阵 为 
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采用 整数 变换 进行 变换 和 量化 时 ， 由 于 变换 其 矢量 模 的 大 小 不 一 ， 因 此 需要 对 变换 系数 进 
行 不 同 程度 的 缩放 以 达到 归 一 化 。 为 了 减少 乘法 的 次 数 ， 在 H. 264 标准 中 ， 编 码 端 将 正 向 缩放 
与 量化 结合 在 一 起 操作 ， 解 码 端 将 反 向 缩放 与 反 量 化 结合 在 一 起 操作 ; 在 AVS1-P2 中 ， 则 使 用 
带 PIT (Pre-scaled Integer Transform ) 的 8x8 整数 变换 技术 ， 在 编码 端 将 正 向 缩放 、 量 化 、 反 向 
缩放 结合 在 一 起 操作 ， 而 解码 端 只 需要 进行 反 向 量化 ， 不 需要 进行 反 向 缩放 ， 从 而 减少 了 解码 需 
端的 运算 量 。 同 H. 264 相 比 ，AVS1-P2 解码 器 端的 运算 复杂 度 降 低 了 30% 。 

图 6-38 和 图 6-39 分 别 给 出 
了 H.264 中 的 整数 变换 与 量化 、 
AVS1-P2 中 带 PIT 技术 的 整数 变 
换 与 量化 的 示意 图 。 图 6-38 ”H. 264 中 的 整数 变换 与 量化 
量化 是 编码 过 程 中 唯一 带 来 
损失 的 模块 。 在 量化 级 数 的 选取 上 ，H. 264 标准 采用 52 个 量化 级 数 ， 采 用 QP ( Quantization Pa- 
rameter) 值 来 索引 ，QP 值 每 增加 6， 量 化 步 长 增加 一 倍 。 而 AVS1-P2 中 采用 总 共 64 级 近似 8 阶 
非 完全 周期 性 的 量化 ，QP 值 每 增加 8， 量 化 步 长 增加 一 倍 。 精 细 的 量化 级 数 使 得 AVS1-P2 能 够 
适应 对 码 率 和 质量 有 不 同 要 求 的 应 用 领域 。 


整数 正 向 缩放 + 量化 和 反 整 数 


图 6-39 AVS1-P2 中 带 PIT 的 整数 变换 与 量化 




























































































(5) 环 路 滤波 

基于 块 的 视频 编码 有 一 个 显著 特性 就 是 重建 图 像 存在 方块 效应 ， 特 别 是 在 低 数码 率 的 情况 
下 。 采 用 环 路 滤波 去 除 方块 效应 ， 可 以 改善 重建 图 像 的 主观 质量 ， 同 时 可 提高 压缩 编码 效率 。 

AVS1-P2 标准 采用 自 适 应 环 路 滤波 ， 即 根据 块 边界 两 侧 的 块 类 型 来 确定 块 边界 强度 值 
(Boundary Stength，BS) ， 对 于 不 同 的 块 边界 强度 值 (BS) 采取 不 同 的 滤波 策略 。 帧 内 预测 的 块 
滤波 强度 最 强 ， 非 连续 性 的 运动 补偿 帧 间 预 测 的 块 滤波 强度 较 弱 ， 对 连续 性 较 好 的 块 边界 不 进 
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行 滤波 。 在 AVS1-P2 中 ，BS 的 取 值 有 3 个 : 2、1 和 0。 如 果 边 界 两 侧 的 块 中 任意 一 个 块 是 采用 
帧 内 编码 的 ， 那 么 BS 等 于 2; 如 果 两 个 相 邻 块 有 相同 的 参考 帧 ， 而 且 在 两 个 运动 矢量 中 任何 一 
个 分 量 差 值 小 于 一 个 整 像素 的 时 候 ，BS 等 于 0; 否则 ，BS 等 于 1。 当 BS 等 于 2 或 者 是 1 时 ， 将 
分 别 采 用 不 同 的 滤波 方式 进行 滤波 ， 而 当 BS 等 于 0 时 ， 不 进行 滤波 。 对 于 两 个 相 邻 块 的 边界 ， 
滤波 时 最 多 关注 两 侧 最 靠近 边界 的 3 个 像素 ， 即 最 多 涉及 6 个 像素 ; 而 被 修改 的 是 两 侧 最 靠近 边 
界 的 2 个 像素 ， 即 最 多 4 个 像素 的 值 被 修改 。 滤 波 所 涉及 的 边界 包括 宏 块 内 部 各 个 8 x8 块 的 边 
界 和 当前 块 与 相 邻 宏 块 的 上 边界 和 左边 界 。 除 了 图 像 和 条 带 的 边界 之 外 ， 所 有 宏 块 的 边界 都 应 
该 进行 环 路 滤波 。 

环 路 滤波 在 宏 块 编码 完成 之 后 进行 ， 用 光栅 扫描 的 顺序 进行 处 理 ， 分 别 对 亮度 与 色 度 做 环 
路 滤波 。 首 先 从 左 到 右 对 垂直 边界 进行 环 路 滤波 ， 然 后 从 上 到 下 对 水 平 边界 进行 环 路 滤波 ， 所 以 
在 进行 垂直 边界 滤波 之 后 所 修改 的 像素 值 将 会 作为 水 平 边界 滤波 时 的 值 。 如 果 宏 块 上 边界 和 左 
边界 像素 值 在 之 前 的 宏 块 滤波 中 被 修改 过 ， 当 前 块 就 是 用 这 些 已 经 被 修改 过 的 像素 值 ， 并 且 可 
能 再 次 修改 这 些 像素 的 值 。 

由 于 AVS1-P2 中 变换 和 预测 所 使 用 的 最 小 块 都 是 8 x8 块 ， 所 以 环 路 滤波 也 只 在 8 x8 块 边界 
进行 。 与 H. 264 对 4 x4 块 边界 进行 滤波 相 比 ，AVS1-P2 中 需要 进行 滤波 的 块 边界 数 大 大 减少 。 
同时 由 于 AVS1-P2 中 滤波 点 数 、 滤 波 强度 分 类 数 都 比 H. 264 中 的 少 ， 大 大 减少 了 判断 、 计 算 的 
次 数 。 环 路 滤波 在 解码 端 占有 很 大 计算 量 ， 因 此 降低 环 路 滤波 的 计算 复杂 度 十 分 重要 。 

(6) 炉 编 码 

炉 编 码 主要 用 于 去 除数 据 的 统计 匈 余 ， 是 视频 编码 器 的 重要 组 成 部 分 。H. 264 标准 采用 了 指 
数 哥 伦 布 码 (Exp-Golomb) 、 上 下 文 自 适应 的 可 变 长 编码 (CAVLC) 、 上 下 文 自 适应 的 二 进 制 算 
术 编 码 (CABAC) 等 炉 编码 技术 。H. 264 在 基本 类 (了 Baseline Profile) 中 对 块 变换 系数 采用 CAVLC， 
而 对 其 他 的 语法 元 素 如 运动 矢量 、 宏 块 类 型 、 编 码 块 模式 (CBP) 、 参 考 帧 索引 等 采用 指数 哥伦布 码 ; 
在 主 类 (Main Profile) 中 采用 CABAC 编码 各 类 语法 元 素 和 块 变换 系数 。 

AVS1-P2 中 的 炉 编码 主要 有 3 类 : 定 长 编码 、E 阶 指数 哥伦布 编码 (Exp- Golomb) 、 基 于 上 
下 文 的 二 维 变 长 编码 (2 Dimension-Variable Length Code，2D-VLC) 。AVS1-P2 中 所 有 语法 元 素 均 
是 根据 定 长 码 或 阶 指数 哥伦布 码 的 形式 映射 成 二 进 制 比特 流 。 一 般 来 说 ， 具 有 均匀 分 布 的 语法 
元 素 用 定 长 码 来 编码 ， 可 变 概 率 分 布 的 语法 元 素 则 采用 0 阶 指数 哥 伦 布 码 来 编码 。 对 于 8 x8 块 
变换 量化 后 的 残 差 系数 则 先 采 用 2D-VLC 编码 ， 查 表 得 到 编码 值 codenum 后 ， 再 采用 大 阶 (k= 
0，1，2，3) 指数 哥伦布 编码 以 得 到 二 进 制 码 流 。 采 用 指数 哥伦布 码 的 优点 是 : 无 须 查 表 ， 只 需 
要 通过 简单 闭合 公式 实现 编 解码 ， 一 定 程度 上 减少 了 炉 编 码 中 查 表 带 来 的 访问 内 存 的 开销 ， 硬 
件 实现 复杂 度 低 ， 而 且 还 可 以 根据 编码 元 素 的 概率 分 布 灵 活 地 选择 指数 哥伦布 编码 的 阶 数 ， 阶 
数 选择 得 当 能 使 编码 效率 逼近 信息 灶 。 

由 于 指数 哥伦布 码 只 能 编码 正 整数 的 符号 ， 因 此 ，AVS1-P2 标准 中 规定 了 4 种 映射 方式 : 
ue(v) 、se(v) 、me(v) 、ce(v) ， 具 体 如 表 6-12 所 示 。 

表 6-12 AVS1-P2 中 语法 元 素 与 上 阶 指数 哥伦布 编码 的 映射 关系 
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映射 方式 语法 元 素描 述 阶 数 语法 元 素 举 例 
ue (v) 无 符号 整数 语法 元 素 0 宏 块 类 型 、 色 度 帧 内 预测 模式 
se (v) 有 符号 整数 语法 元 素 0 运动 矢量 、 量 化 参数 增 量 
me (v) 指数 哥伦布 编码 的 语法 元 素 0 编码 块 模式 ( CBP) 
ce (v) 变 长 编码 的 语法 元 素 0, 1, 2, 3 变换 量化 后 的 残 差 系数 
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四 | 


变换 量化 后 的 量化 残 差 系数 经 过 Zig- Zag 扫描 后 形成 多 个 (Run，Level) 数据 对 ， 其 中 Run 
表示 非 0 系数 前 连续 0 的 个 数 ，Level 表示 一 个 非 0 系数 的 值 。 所 谓 的 二 维 (2D) ， 就 是 将 
(Run ，Level) 数据 对 视 为 一 个 事件 联合 编码 。(Run ，Level) 数据 对 存在 很 强 的 相关 性 ， 且 具有 
Run 值 呈现 增 大 趋势 、Level 值 呈 现 减 小 趋势 这 两 个 特点 ，AVS1-P2 利用 这 种 上 下 文 信息 ， 自 适 
应 切换 VLC 码 表 来 匹配 (Run ，Level) 数据 对 的 局 部 概率 分 布 ， 提 高 编码 效率 。 与 以 往 标 准 中 
不 同 的 变换 块 采用 不 同 的 码 表 相 比 ，AVS1-P2 只 需 用 到 19 张 不 同 的 2D-VLC 码 表 ， 减 少 了 码 表 
的 存储 开销 ， 同 时 也 减少 了 查 表 所 带 来 的 内 存 访问 开销 。 


6.5.2 AVS1-P2 与 H.264 的 比较 


AVS1-P2 与 H. 264 都 采用 混合 编码 框架 。AVS1-P2 的 主要 创新 在 于 提出 了 一 批 具 体 的 优化 
技术 ， 在 较 低 的 复杂 度 下 (大致 估 算 ，AVS1-P2 解码 复杂 度 相 当 于 H.264 的 30% ，AVS1-P2 编 
码 复杂 度 相 当 于 H. 264 的 70% ) 实现 了 与 国际 标准 相当 的 技术 性 能 ,但 并 未 使 用 国际 标准 背后 
的 大 量 复杂 的 专利 。AVS1-P2 当中 具有 特征 性 的 核心 技术 包括 : 8 x8 整数 变换 、 量 化 、 帧 内 预 
测 、1/4 精度 像素 插值 、 特 殊 的 帧 间 预 测 运 动 补偿 、 二 维 粹 编码 、 去 块 效应 环 内 滤波 等 。AVS1- P2 
与 H. 264 使 用 的 关键 技术 对 比 和 性 能 差异 如 表 6-13 所 示 。 


表 6-13 AVS1-P2 与 H. 264 使 用 的 关键 技术 对 比 和 性 能 差异 估计 
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AVS1-P2 与 H264 性 
能 差异 估计 (采用 信 噪 
关键 技术 MPEG-2 视频 H. 264 AVS1-P2 
Wn 比 dB 估算 ， 括 号 内 的 
百分比 为 数码 率 差 异 ) 
只 在 频率 域内 进 | 基于 4 x4 块 ，9 种 亮度 | 基于 8 x8 块 ，5 种 亮度 
帧 内 预测 “| 行 DC 系数 差分 | 预测 模式 , 4 种 色 度 预测 | 预测 模式 , 4 种 色 度 预测 基本 相当 
预测 模式 模式 
上 v7 上 1 YI 
多 参考 由 _ | 
Ey 只 有 1 帧 最 多 16 帧 最 多 2 帧 帧 数 增加 性 能 提高 不 
预测 
明显 
变 块 大 小 运 16 x16，16 x8 16x16, 16 x8, 8 x 16， 16x16, 16x8, 8 x 16， 降低 约 0. 1dB 
动 补偿 ( 场 编码 ) 8x8, 8 x4, 4x8, 4x4 8x8 (2% ~4% ) 
独立 的 空间 域 或 时 间 域 预 | ”时 间 域 空间 域 相 结 合 ， 
二 测 模式 ， 若 后 向 参考 帧 中 用 | 时 间 域 内 后 向 参考 帧 中 用 于 梳 襄 02220305 
0 无 于 导出 运动 矢量 的 块 为 帧 内 | 导出 运动 矢量 的 块 为 帧 内 编 Pg 
与 异 卫 O 
编码 时 ， 只 是 视 其 运动 矢量 | 码 时 ， 使 用 空间 域 相 邻 块 的 
为 0， 依 然 用 于 预测 运动 矢量 进行 预测 
称 为 对 称 预 测 模式 ， 只 编 
B 帧 宏 块 双 | 。 编码 前 后 两 个 ; 
3 相安 扩 双 | 编码 前 后 两 个 运 | ， 编码 前 后 两 个 运动 矢量 | 码 一 个 前 向 运动 矢量 ， 后 向 | 基本 相当 
向 预测 模式 “| 动 矢量 et 
运动 矢量 由 前 向 导出 
1/2 像素 位 置 采用 6 抽 头 | ”1/2 像素 位 置 采用 4 抽 头 
1/4 像素 仅 在 半 像 素 位 置 en le de 
本 滤波 ，1/4 像素 位 置 采用 线 | 滤波 ，1/4 像素 位 置 采用 4 | ”基本 相当 
四 EE 性 插值 抽 头 滤波 ， 线 性 插值 
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AVS1-P2 与 H264 性 
能 差异 估计 (采用 信 品 









































关键 闻 MPEG-2 视频 H. 264 AVS1-P2 
人 比 dB 估算 ， 括 号 内 的 
百分比 为 数码 率 差异 ) 
4 x4 整数 变换 ， 编 解码 | 8 x8 整数 变换 ， 编 码 端 
8 x8 浮 点 DCT | 端 都 需要 归 一 化 ， 量 化 与 变 | 进行 变换 归 一 化 ， 量 化 与 变 
变换 与 量 是 高 约 0. 1dB (2% 
朗 痪 量化 | 变换 ， 除 法 量化 “| 换 归 一 化 相 结 合 ， 通 过 乘 | 换 归 一 化 相 结合 ， 通 过 乘 | 六 We 
法 、 移 位 实现 法 、 移 位 实现 
CAVLC: 与 周围 块 相关 | 上 下 文 自 适应 2D- VLC 
单一 VLC 表 ， EE k Bows 降低 约 0.5dB 
习 编 公 性 高 ， 实 现 较 复杂 编码 块 系数 六 讲 和 可 
炳 编码 ge 性 高 ， 实 现 较 复杂 编码 块 系数 过 程 中 进行 多 码 | 1 0%。 13% ) 


CABAC: 计算 较 复 杂 表 切 换 














基于 4 x4 块 边缘 进行 , | 基于 8 x 8 块 边缘 进行 ， 














环 路 滤波 “| 无 滤波 强度 分 类 繁杂 ， 计 算 | 简单 的 滤波 强度 分 类 ， 滤 波 一 
复杂 较 少 的 像素 ， 计 算 复杂 度 低 











数据 分 割 ， 复杂 的 FMO i 
“| 数据 分 割 ， 复杂 的 PMOA | ”简单 的 条 带 划分 机 制 足以 
容错 编码 简单 的 片 (slice) | ASO 等 宏 块 、 条 带 组 织 机 满足 广播 应 用 中 的 错误 拖 
i 划分 制 ， 强 制 ma 块 刷新 编码 ， ee 

盖 、 错 误 恢 复 需求 


约束 性 帧 内 预测 等 


























6.5.3 AVS+ 标 准 


1. AVS+ 标 准 的 制定 过 程 

为 推动 AVS 自主 创新 技术 产业 化 应 用 ， 促 进 我 国民 族 企业 的 发 展 ， 国 家 广电 总 局 与 工信部 
于 2012 年 3 月 18 日 共同 成 立 “AVS 技术 应 用 联合 推进 工作 组 ”( 以 下 简称 “AVS 推进 组 ”) ， 进 
一 步 优化 AVS 技术 ， 制 定 并 颁布 AVS 的 升级 版 一 一 AVS + 标准 。 

2012 年 3 月 18 日 ，AVS 推进 组 召开 第 一 次 会 议 ， 明 确 了 在 现 有 AVS 国家 标准 和 过 去 几 年 
AVS 加 强 类 工作 的 基础 上 ， 积极 采纳 新 的 技术 ， 完 善 编码 标准 ， 以 满足 3D 和 高 清 电视 广播 的 
应 用 需求 。2012 年 3 月 21 日，AVS 推进 组 发 布 《 面 向 3D 和 高 清 电 视 广播 应 用 的 视频 技术 征 
集 书 》， 编 码 效率 的 参照 对 象 达 到 MPEG-4 AVC/H. 264 的 High Profile (简称 HP) 。2012 年 7 
月 10 日 ， 国 家 广播 电影 电视 总 局 正式 颁布 了 广播 电影 电视 行业 标准 《广播 电视 先进 音 视 频 编 
解码 第 1 部 分 : 视频 》， 简 称 AVS + 标准， 标准 编号 为 CYZT 257. 1 一 2012， 同 时 于 颁布 之 日 
开始 实施 。 

2. AVS + 标准 采用 的 新 技术 

AVS + 标准 在 国家 标准 GBAT 20090. 2 一 2006《 信 息 技术 先进 音 视频 编码 第 2 部 分 : 视频 》 
(简称 AVS1-P2) 的 基础 上 ,在 丧 编码 、 变 换 / 量 化 、 运 动 矢 量 预测 等 方面 增加 了 4 项 新 技术 ， 
如 表 6-14 所 示 。 
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表 6-14 AVS + 标准 采用 的 新 技术 










































































序号 技术 名 称 说 明 

1 人 算术 编码 ， 用 于 粒 编 码 

2 人 自 适应 量化 矩阵 ， 用 于 DCT 变换 后 系数 的 量化 , 在 图 像 级 可 调整 

3 同 极 性 场 跳 过 模式 编码 隔行 视频 中 ，P 帧 跳 过 (P_Skip) 宏 块 的 运动 矢量 推导 

4 增强 场 编码 技术 隔行 视频 中 ，B 帧 跳 过 (B_Skip) 宏 块 与 B 帧 直接 (B_Direct) 宏 块 的 运动 








矢量 推导 








在 炉 编 码 方面 ，AVS + 标准 增加 了 一 个 基于 上 下 文 的 算术 编码 ( Context- Based Arithmetic 
Coding，CBAC) ， 这 是 提高 编码 效率 很 关键 的 一 个 环节 。 

在 变换 /量化 部 分 ，AVS + 标准 增加 了 图 像 级 自 适 应 加 权 量 化 (Adaptive Weighting Quantiza- 
tion，AWQ ) 。 

在 运动 矢量 预测 方面 ，AVS + 标准 针对 我 国 的 隔行 扫描 数字 电视 应 用 ， 对 其 中 场 编 码 的 方法 
进行 了 增强 。 

AVS + 标准 前 向 兼容 AVS1-P2 标准 ， 即 符合 AVS + 标准 的 解码 器 可 以 对 AVS1-P2 编码 的 视 
频 码 流 进行 解码 。 

3. AVS + 和 H.264 High 4 : 2 : 2 关键 技术 的 比较 

2013 年 8 月 ， 国 家 广播 电影 电视 总 局 广播 电视 计量 检测 中 心 对 AVS + 高清 编码 器 的 图 像 质 
量 进行 了 主观 评价 ， 并 与 市 场 上 主流 的 H. 264 高 清 编码 器 编码 图 像 质 量 进行 了 对 比 。 视 频 码 率 
设置 为 12Mbit/s， 采用 8 个 国内 外 高 清 测试 序列 ， 图 像 质 量 相 对 于 源 图 像 的 质量 下 降 百 分 比 平均 
值 分 别 为 9.0% (AVS + Dualpass) 、9.8% (AVS + Singlepass) 、8.8% (H.264)。 测 试 结果 表明 ， 
在 编码 效率 上 ，AVS + 与 H. 264 基本 相当 。 

AVS+ 和 H.264 High4:2:2 使 用 的 关键 技术 对 比如 表 6-15 所 示 。 从 表 6-15 中 可 以 看 出 
AVS + 在 预测 、 运 动 补偿 、 变 换 、 焙 编码 等 多 个 方面 都 有 所 改变 。AVS + 相对 于 H.264 Hgh4:2:2 
更 简单 一 些 ， 对 硬件 资源 的 消耗 更 少 ， 更 易于 硬件 实现 。 


表 6-15 AVS+ 和 H.264 High 4 :2 :2 关键 技术 的 比较 


序号 关键 技术 AVS+ H.264 High4:2:2 













































































Ba i 4x4 亮 度 块 9 种 预测 模式 ;8 x8 亮度 块 9 
基于 8 x 8 块 ; 亮度 分 量 5 种 预测 模式 ; | 


贞 内 预 讽 Ee 预测 模式 ; 16 x 16 亮度 块 4 种 预测 模式 ; 4 
1 帧 内 预测 色 度 分 量 4 种 预测 模式 种 预测 模式 x 度 块 4 种 预测 模式 















































x4 色 度 块 4 种 预测 模式 

变 块 尺寸 16 x16、16 x8、8x16、8 x8、8 x4、4x 
上 eid 16 x16、16 x8、8x16、8 x8 

运动 补偿 8 、4x4 
3 多 参考 帧 最 多 2 个 参考 帧 或 4 个 参考 场 最 多 16 个 参考 帧 
| 1/4 像素 搬 信 | 1/2 像素 位 置 采用 4 抽 头 滤波 ， 1/4 像素 | 1/2 像素 位 置 采用 4 抽 头 滤波 ， 1/4 像素 位 

公 | 位 置 采 用 4 抽 头 滤波 或 线性 插值 置 线性 插值 
5 B 帧 编码 时 空域 相 结 合 的 直接 模式 ， 对 称 模式 独立 的 时 域 或 空域 直接 模式 
4 x4 整数 变换 ， 解 码 端 需 进行 变换 月 一 化 ， 

6 | 变换 8 x8 整数 变换 、 编 码 端 进行 变换 归 一 化 ee 


























8 x8 整数 变换 





第 6 章 |213 


四 ) 数字 图 像 与 视频 处 理 















































( 续 ) 
序号 关键 技术 AVS+ H.264 High4:2:2 
标量 量化 ; 与 变换 归 一 化 相 结合 ; 加 权 | 标量 量化 ; 与 变换 归 一 化 相 结合 ; 加 权 
量化 
量化 量化 
炉 编 码 C2DVLC、 CBAC CAVLC、 CABAC 








9 去 块 效应 滤波 | 8 x8 块 边界 ， 补 偿 环 内 


4 x4 块 边界 ;补偿 环 内 


























10 容错 编码 条 带 划分 条 带 划分 
11 帧 编码 类 型 帧 、 场 帧 、 场 帧 、 场 、PAFF 、MBAFF 
12 采样 格式 浊 王 富 让 2 进 人 2 0 





6.6 MATLAB 编程 实例 


【 例 6-1】 请 编写 实现 JPEG 压缩 的 MATLAB 程序 。 


解 : MATLAB 关键 代码 如 下 。 


名 以 下 代码 只 处 理 亮 度 分 量 , 其实 色 度 分 量 处 至 

















方式 是 一 样 的 


% 涉 及 颜色 空间 转换 ,DCT 变换 ,DPCM 差分 编码 .量化 .Zig-Zag 扫描 


% 该 程序 未 采用 Huffman 丧 编码 
clear all; 
close all; 
cle; 
filename = 'D:/picture. jpg'; 
T= dctmtx(8); 
lighttable =... 
[16 11 10 16 24 40 51 61 ; 
12 12 14 19 26 58 60 55 ; 
14 13 16 24 40 57 69 56 ; 
14 17 22 29 51 87 80 62 ; 
18 22 37 56 68 109 103 77; 
24 35 55 64 81 104 113 92 ; 
49 64 78 87 103 121 120 101; 
72 92 95 98 112 100 103 99 ] ; 
colortable =... 
[17 18 24 47 99 99 99 99 ; 
18 21 26 66 99 99 99 99 ; 
24 26 56 99 99 99 99 99 ; 
47 66 99 99 99 99 99 99 ; 
99 99 99 99 99 99 99 99; 
99 99 99 99 99 99 99 99 ; 
99 99 99 99 99 99 99 99 ; 
99 99 99 99 99 99 99 99 ] ; 


sequence =[192310172518114512192633413427201367... 
14 21 28 35 42 49 57 50 43 36 29 22 15 8 16 23 30 37 44 51 58 59... 
52 45 38 31 24 32 39 46 53 60 61 54 47 40 48 55 62 63 56 64]; 


tic; 


% 读 入 文件 ,转换 到 YUV 


input = imread (filename) ; 
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input = rgb2ycber( input ) ; 


%% 和 WW 
% 原 始 黑 白 图 片 

figure( 1), 

imshow( input( :,:,1)); 

% 原 图 像 的 行 数 , 列 数 


row = size( input, 1 ); 





col = size( input ,2); 
% 填 补 图 片 -> 行列 转化 为 8 的 倍数 
temp = mod( size( input, 1 ) ,8); 
if(temp ~=0) 
input = [ input; zeros(8 ~ temp, size( input,2) ,3) ] ; 
end 
temp = mod( size( input ,2 ) ,8 ) ; 
if(temp ~=0) 
input = [ input, zeros( size( input,1) ,8 -temp,3)]; 
end 
clear temp 
% 每 一 维 输入 转化 为 ( -128 ~127) 
tl = double( im2uint8 (input( :,:,1))) -27; 
{2 = double( im2uint8 (input( :,: ,2))) -27; 
13 = double( im2uint8 (input( :,:,3))) -27; 
% DCT 变换 -> 量化 ->z 字形 编码 -> DC 差分 编码 
r= size(input,1)./8; 





c= size(input,2). /8; 
WMG%W%%MWW%%MM%WWWMMN%WW%WM%%MWWMWWMM%MWMW%%WW%%WMWW 








% 处 理 亮度 维 
count=1; 
pl =int8(zeros(r* ¢c,64)); 
fori=1:r 
forj =1:c 
temp = round( Tx*t](8*i—7.8*1i,8*j—7:8*]) *T'"./lighttable); %DCT, 量 化 
pl(count,:) = temp(sequence); %z 字形 编码 
count = count +1; 
end 
end 
pl(:,1) =[p1(1) ;diff(p1(:,1))]; % DC 系数 差分 编码 
tmp=[]; 
fori=1:64 %matlab 中 al! = b 是 不 对 的 ,应 该 a ~= b 
%if length( find( pl(:,i) ) ~= 0 ) ~= 0 狗 如 果 pl 第 i 列 全 为 0, 则 find() 返 回 空 矩阵 [ ] 





i length( find( pl(:,i) ) ) ~= 0 
tmp = [tmp,i]; 
end 
end 
pl = pl(:,tmp); 
coll = uint8 (tmp); 
save data_rar/p_coll pl coll r c; 
clear all; 
% close all; 


cle; 
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6.7 小 结 


基于 块 的 混合 编码 器 有 效 地 联合 了 运动 补偿 预测 、 变 换 编码 和 录 编 码 。 因 为 它 具 有 相对 较 
低 的 复杂 度 和 好 的 编码 效率 ， 所 以 在 各 种 视频 编码 的 国际 标准 中 都 得 到 采用 。 在 混合 编码 的 框 
架 内 ， 适 当地 进行 运动 估计 和 补偿 以 及 选择 操作 模式 ( 帧 内 或 帧 间 模 式 等 ) 可 以 改善 编码 性 能 。 
本 章 介 绍 的 H. 264/AVC、H. 265/HEVC 和 AVS 视频 编码 标准 都 采用 了 基于 块 的 混合 编码 。 

H. 264/AVC 标准 与 以 前 的 视频 编码 标准 相 比 ， 引 入 了 许多 新 的 技术 ， 如 帧 内 预测 编码 、 可 
变 块 大 小 的 运动 补偿 、 多 参考 帧 技术 以 及 SISP 技术 等 ， 正 是 这 些 改 进 使 H. 264 标准 与 以 前 标准 
相 比 在 性 能 上 有 了 很 大 的 提升 。 同 时 ， 为 了 提高 与 网 络 的 友好 性 ，H. 264 标准 采用 了 网 络 抽象 层 
(NAL) 和 视频 编码 层 (VCL) 的 分 层 结构 ， 其 中 网 络 抽象 层 主要 负责 打包 和 传输 ;而 编码 层 则 
完成 高 效 的 视频 压缩 编码 功能 ， 实 现 了 传输 和 编码 的 分 离 。H. 264 标准 可 以 适应 不 同 网 络 的 传输 
要 求 ， 同 时 为 了 实现 在 易 出 错 网 络 环境 下 的 使 用 ， 也 引入 了 一 些 抗 误 码 技术 ， 如 数据 分 制 、FMO 
等 。 由 于 H. 264 标准 具有 高 压缩 性 能 和 网 络 适应 性 强 的 特点 ， 因 此 其 在 众多 领域 具有 广阔 的 市 
场 前 景 ， 而 其 高 复杂 度 的 障碍 将 会 随 着 新 的 优化 技术 的 提出 以 及 硬件 系统 的 改进 而 被 突破 。 

相对 于 H. 264/AVC，H. 265AHEVC 标准 具有 两 大 改进 ， 即 支持 更 高 分 辩 率 的 视频 以 及 改进 
的 并 行 处 理 模式 。H. 265AHEVC 编码 器 可 以 根据 不 同 应 用 场合 的 需求 ， 在 压缩 率 、 运 算 复 杂 度 、 
抗 误 码 性 以 及 编 解码 延迟 等 性 能 方面 进行 取舍 和 折 中 。HEVC 的 应 用 定位 于 下 一 代 的 高 清 电视 
(HDTV) 显示 和 摄像 系统 ， 能 够 支持 更 高 的 扫描 帧 率 以 及 达到 1080p(1920 x 1080) 乃至 UHDTV 
(7680 x4320) 的 显示 分 辩 率 ， 可 应 用 于 家 庭 影院 、 数 字 电影 、 视 频 监 控 、 广 播 电 视 、 网 络 视 
频 、 视 频 会 议 、 移 动 流 媒体 、 远 程 呈 现 (Telepresence) 、 远 程 医疗 等 领域 。 将 来 还 可 用 于 3D 视 
频 、 多 视点 视频 、 可 分 级 视频 等 。 

AVS 视频 编码 标准 的 特色 是 在 同一 编码 框架 下 ， 针 对 有 明显 不 同 的 应 用 制定 不 同 的 信 源 压 
缩 标准 ， 尽 可 能 减少 技术 的 宛 余 ， 从 而 降低 AVS 视频 产品 的 设计 成 本 、 实 现成 本 和 使 用 成 本 。 
在 高 清晰 度数 字 视 频 应 用 中 ，AVS1- P2 的 性 能 与 H.264 主 类 相当 。 在 低 分 辩 率 移动 应 用 中 ， 
AVS-P7 的 性 能 与 H. 264 基本 类 相当 。 但 在 获得 同等 压缩 性 能 的 前 提 下 ， 由 于 AVS 中 的 压缩 技术 
都 经 过 针对 性 的 优化 ， 其 计算 复杂 度 、 存 储 器 和 存储 带宽 资源 的 占用 都 明显 低 于 H.264 相应 


的 类 。 
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6.8 习题 


加 





际 上 主要 有 哪些 数字 视频 编码 标准 ? 

. 请 曾 述 H. 264/AVC、H. 265/HEVC 以 及 AVS 视频 编码 标准 中 的 “类 ”和 “级 ”的 含义 。 
. 与 以 前 的 视频 编码 标准 相 比 ，H. 264/AVC 标准 引入 了 哪些 新 的 技术 ? 

. 在 H. 264/AVC 标准 中 采用 了 整数 变换 ， 与 传统 的 DCT 相 比 有 什么 优势 ? 

. 简 述 H. 264/AVC 标准 中 的 帧 内 预测 原理 。 

. AVS1-P2 编码 标准 与 H. 264 标准 相 比 ， 其 性 能 怎样 ?有 何 优势 ? 

H. 265/HEVC 中 的 波 前 并 行 处 理 (WPP) 技术 的 作用 是 什么 ? 
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第 7 剖 图像 和 视频 文件 格式 


本 章 学 习 目 标 : 
熟悉 位 图 的 特性 、 图 像 的 类 型 及 调 色 板 的 概念 。 
熟悉 图 像 文件 的 一 般 结 构 。 
。 熟悉 BMP、GIF、JPEG 等 常见 的 图 像 文件 格式 ， 了 解 PNG、PCX、TIFIVTIF、SVG 等 格式 
的 特点 。 
e。 了解 FLILFLC、SWF 等 动画 文件 格式 。 
。 熟悉 AVI、MPEG/MPG/DAT/DivX/XviD 等 数字 视频 文件 格式 。 
。 了 解 RA、RM/RMVB、ASF、WMV、WMA、MOV、FLV/F4V 等 流 媒 体 文件 格式 。 


7.1 资源 交换 文件 格式 


资源 交换 文件 格式 (Resource Interchange File Format，RIFF) 是 由 Microsoft 和 IBM 在 1991 年 
共同 提出 的 一 种 媒体 文件 的 存储 格式 。 不 同 编码 的 音频 、 视 频 文 件 ， 可 以 按照 它 定义 的 存储 规则 
保存 、 记 录 各 自 不 同 的 数据 ， 如 : 数据 内 容 、 采 集 信 息 、 显 示 尺 寸 、 编 码 方式 等 。 在 播放 器 读 取 
文件 的 时 候 ， 就 可 以 根据 RIFF 的 规则 来 分 析 文 件 ， 合 理 地 解析 出 音频 、 视 频 信 息 ， 正 确 进 行 播 
放 。RIFF 是 Windows 环境 下 大 部 分 媒体 文件 遵循 的 一 种 文件 格式 规范 。 所 以 ， 准 确 地 说 ，RIFF 
本 身 并 不 是 一 种 特定 的 文件 格式 ， 而 是 对 这 一 类 文件 类 型 的 总 的 定义 ， 如 WAV 文件、AVI 文件 
等 都 遵循 RIFF 规范 。 

在 RIFF 的 文件 存储 规则 中 ， 有 了 几 个 重要 的 概念 需要 理解 ， 它 们 是 FOURCC 、Chunk 、List ， 

面 将 对 这 几 个 概念 进行 解释 。 
RIFF 格式 是 一 种 树 状 的 结构 ， 其 基本 组 成 单元 为 List (列表 ) 和 Chunk ( 块 ) ， 分 别 如 树 的 
节点 和 叶子 。RIFF 格式 也 类 似 Windows 文件 系统 的 组 织 形式 ，Windows 文件 系统 有 文件 夹 和 文 
件 ， 分 别 对 应 RIFF 中 的 List 和 Chunk。Windows 文件 系统 中 的 文件 夹 可 以 包含 子 文件 夹 和 文件 ， 
而 文件 是 保存 数据 的 基本 单元 ，RIFF 也 使 用 了 这 样 的 结构 。 在 RIFF 文件 中 ， 数 据 保 存 的 基本 单 
元 是 Chunk， 可 用 于 保存 音 、 视 频数 据 或 者 一 些 参数 信息 ，List 相当 于 文件 系统 的 文件 来， 可 以 
包含 多 个 Chunk 或 者 多 个 List。 

1. FOURCC 

一 个 四 字符 码 FOURCC (Four Character Code) 占 4 字 节 ， 一般 表示 4 个 ASCII 字符 。 在 
RIFF 文件 格式 中 ,使 用 FOURCC 来 表征 数据 类 型 ， 如 'RIFF' 'LIST''WAVE''AVI' 等 。 
FOURCC 一 般 是 四 个 字符 ， 如 'RIFF' 这 样 的 形式 ， 也 可 以 三 个 字符 包含 一 个 空格 ， 如 ' AVI' 
这 样 的 形式 。 

需要 注意 的 是 ，Windows 操作 系统 使 用 little-endian ( 字 节 由 低位 到 高 位 存储 ) 的 字 节 存储 顺 
序 ， 因 此 一 个 四 字符 码 'abcd ' 的 实际 DWORD 值 应 为 0x64636261。 

2. Chunk ( 块 ) 

Chunk 是 组 成 RIFF 文件 的 基本 单元 ， 它 的 结构 如 下 。 
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l= 


structchunk 

| 
ChunkID ; /* 抉 标识 */ 
ChunkSize ; /* 块 长 度 */ 
ChunkData; /#* 块 数据 内 容 */ 


上 

ChunkID 是 一 个 FOURCC， 标 识 Chunk 的 名 称 ， 如 : 'RIFF'、'LIST' 、'WAV '、'AVI ' 等 
等 ， 由 于 这 种 文件 结构 最 初 是 由 Microsoft 和 IBM 公司 为 个 人 计算 机 (PC) 所 定义 的 ，RIFF 文件 
是 按照 little-endian 字 节 顺序 写 入 的 。 

ChunkSize 占用 4 字 节 ， 表 示 ChunkData 部 分 的 数据 块 长 度 ， 以 字 节 为 单位 。ChunkID 与 
ChunkSize 域 的 大 小 则 不 包括 在 该 值 内 。 

ChunkData 则 是 Chunk 中 实质 性 的 内 容 ， 保 存 的 是 Chunk 的 具体 数据 内 容 。 一 个 Chunk 保存 
的 数据 可 以 是 关于 声音 文件 的 编码 方式 、 音 视频 采样 等 信息 ， 也 可 以 是 音频 或 视频 数据 。 具 体 表 
示 哪 类 数据 则 通过 ChunkID 来 标识 。ChunkData 中 所 包含 的 数据 是 以 字 (WORD) 为 单位 排列 
的 ， 如 果 该 数据 结构 长 度 是 奇数 ， 则 在 最 后 添加 一 个 空 (NULL) 字 节 。 

3. List ( 列表) 

一 个 List 数据 块 的 数据 结构 如 下 。 





















































structchunk 

| 
'LIST ' ; /# 块 标识 */ 
ListSize; /*# 块 长 度 */ 
ListType; /* 类 型 */ 
ListData; /* 块 数据 内 容 */ 


上 
'LIST' 也 是 一 个 FOURCC， 而 且 是 固定 的 ， 每 个 List 都 是 以 'LIST' 为 开头 。 
ListSize 占用 4 字 节 ， 表 示 ListType 和 ListData 两 部 分 加 在 一 起 的 长 度 。 
ListType 是 一 个 FOURCC， 是 对 List 具体 包含 的 数据 内 容 的 标识 。 
ListData 则 是 List 的 数据 内 容 区 ， 由 Chunk 和 子 List 组 成 ， 它 们 的 个 数 和 组 成 次 序 可 以 是 不 














4. RIFF 文件 的 结构 
一 个 RIFF 文件 的 数据 结构 如 下 。 


structchunk 

| 
'RIFF'; /* 块 标识 */ 
FileSize; /* 块 长 度 */ 
FileType; /* 类 型 */ 
FileData; /* 块 数据 内 容 */ 


}; 
'RIFF' 也 是 一 个 FOURCC， 用 于 标识 该 文件 是 一 个 RIFF 格式 的 文件 。 


FileSize 是 一 个 4 字 节 的 数据 ， 给 出 文件 的 长 度 ， 但 仅 包括 FileType 和 FileData 两 部 分 。 

FileType 是 一 个 FOURCC， 用 来 说 明文 件 类 型 ， 如 'WAV'、'AVI' 等 。 

FileData 部 分 表示 文件 的 具体 内 容 ， 可 以 由 若干 个 List 和 Chunk 组 成 ， 而 List 的 ListData 又 
可 以 由 若干 个 Chunk 和 子 List 组 成 ， 且 List 是 可 以 舰 套 的 。 
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原 和 栅 员 文件 六 区) (©) 


为 

















7.2 数字 图 像 文件 格式 


7.2.1 位 图 和 调 色 板 的 概念 


1. 位 图 
位 图 又 称 光栅 图 、 点 阵 图 ， 是 使 用 像素 阵列 来 描述 或 映射 的 图 像 。 可 以 把 一 幅 位 图 图 像 看 作 
一 个 矩阵 ， 和 矩阵 中 的 任 一 元 素 对 应 图 像 中 的 一 个 像素 点 ， 而 相应 的 值 对 应 于 该 点 的 灰 度 (或 颜 

色 ) 等 级 ， 这 是 量化 后 得 到 的 结果 。 这 个 数字 矩阵 的 元 素 称 为 像素 ， 存 放 于 显示 缓冲 区 中 ， 与 
显示 器 上 的 显示 点 一 一 对 应 ， 故 称 为 位 映射 图 ， 简 称 位 图 。 每 个 像素 的 色彩 信息 由 RGB 组 合 或 
者 灰 度 值 表示 。 调 用 位 图 时 ， 其 数据 存 于 内 存 中 ， 由 一 组 计算 机 内 存 位 组 成 。 根 据 量化 的 颜色 深 
度 的 不 同 ， 位 图 又 分 为 二 值 (黑白 二 值 )、 灰 度 和 彩色 图 像 三 大 类 。 很 显然 ， 灰 度 (颜色 ) 等 级 
越 多 ， 图 像 就 越 逼真 。 

2. 调 色 板 

为 了 显示 彩色 图 像 ， 就 要 分 别 给 出 每 个 像素 的 RGB 值 。 在 真 彩 色 系 统 中 ， 真 彩色 图 像 共 
2 x2” x2 =16777216 种 颜色 ; 每 一 个 像素 的 值 都 用 24bit 表示 ， 即 R、G、B 分 量 各 用 8bit 来 表 
示 。 真 彩色 颜色 值 与 像素 值 一 一 对 应 ， 像 素 值 就 是 颜色 值 。 但 对 于 16 色 或 256 色 显 示 系 统 ， 直 接 
用 4bit 或 gbit 像素 值 表 示 颜色 值 无 法 得 到 最 佳 甚至 是 比较 好 的 显示 效果 ， 因 而 引入 了 调 色 板 技术 。 

调 色 板 (Palette) 一 词 来 源 于 油画 工具 。 这 里 的 调 色 板 相当 于 颜色 查找 表 (Look Up Table， 
LUT) 。 在 16 色 或 256 色 显 示 系 统 中 ， 将 图 像 中 出 现 最 频繁 的 16 种 或 256 种 颜色 组 成 一 个 颜色 
表 ， 并 将 它们 分 别 编号 为 0 ~15 或 0 ~255， 这 样 就 使 每 一 个 4bit 或 8bit 的 颜色 编号 与 颜色 表 中 的 
24bit 颜色 值 (对 应 一 种 颜色 的 R、G、B 值 ) 相对 应 。 这 种 4bit 或 8bit 的 颜色 编号 称 为 颜色 的 索 
引号 ， 由 颜色 索引 号 及 其 对 应 的 24bit 颜色 值 组 成 的 表 称 为 颜色 查找 表 ， 也 即 调 色 板 。 使 用 调 色 
板 后 ，16 色 或 256 色 图 像 中 的 4bit 或 8bit 像素 值 就 不 再 是 具体 的 颜色 值 ， 而 是 各 像素 点 颜色 值 
的 编号 。 在 Windows 中 的 位 图 和 PCX、TIF、GIF 等 图 像 文件 格式 中 都 应 用 了 调 色 板 技术 。 

表 7-1 给 出 了 16 色 标 准 VGA 调 色 板 的 RGB 组 合 值 。 


表 7-1 16 色 标 准 VGA 调 色 板 





















































































































































代 码 R G B 颜色 名 入 

0 0 0 0 黑 

1 0 0 128 深蓝 
2 0 128 0 深 绿 
3 0 128 128 深 青 
4 128 0 0 深 红 
5 128 0 128 紫 

6 128 128 0 橄榄 绿 
7 192 192 192 灰白 
8 128 128 128 深 灰 
9 0 0 255 禾 
10 0 255 0 绿 
11 0 255 255 青 
12 255 0 0 红 
13 255 0 255 品 红 
14 255 255 0 黄 
15 255 255 255 白 
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四 ) 数字 图 像 与 视频 处 理 





























3. 图 像 的 类 型 

一 幅 图 像 由 许多 像素 组 成 ， 每 个 像素 具有 颜色 属性 和 位 置 属性 。 根 据 图 像 像素 的 颜色 分 类 ， 
可 将 图 像 分 为 如 下 4 种 类 型 。 

1) 二 值 图 像 。 每 个 像素 只 有 黑 、 白 两 种 灰 度 ， 因 此 一 个 像素 可 用 1bit 来 表示 ， 黑 色 用 “0” 
表示 ， 白 色 用 “1” 表 示 ， 或 相反 。 常 把 二 值 图 像 称 为 1 位 色 图 像 ， 或 2 色 图 像 ( 注 : 有 的 书 中 
也 称 单 色 图 像 )。 在 图 像 处 理 过 程 中 ， 常 把 图 像 转 为 二 值 图 像 后 进行 各 种 分 析 。 

2) 灰 度 图 像 。 每 个 像素 有 256 级 灰 度 值 ， 因 此 一 个 像素 可 用 8bit 表示 ， 其 取 值 范围 为 0 ~ 
255， 表 示 256 种 不 同 的 灰 度 值 。 

3) 索引 图 像 。 在 这 种 模式 下 ， 颜色 表 都 是 预先 定义 的 ， 并且 可 供 选 用 的 一 组 颜色 也 很 有 
限 ， 索 引 颜色 的 图 像 最 多 只 能 显示 256 种 颜色 。 因 此 一 个 像素 用 8bit 表示 ， 但 这 8bit 的 值 不 是 颜 
色 值 ， 而 是 颜色 表 中 的 索引 值 ， 根 据 索 引 值 在 颜色 表 中 找到 真正 的 RGB 颜色 值 。 

4) 真 彩色 图 像 。 在 真 彩色 图 像 中 ， 每 一 个 像素 包括 红 (R)、 绿 (G) 和 蓝 (B) 三 个 基色 
分 量 ， 每 个 基色 分 量 用 1 个 字 节 (8bit) 表示 ， 表 示 0 ~255 之 间 的 不 同 的 值 ，3 个 字 节 组 合 可 以 
产生 28 x2 x28 = 16777216 种 不 同 的 颜色 。 


7.2.2 图 像 文件 的 一 般 结 构 


数字 图 像 在 计算 机 中 都 是 以 文件 的 形式 存储 和 记录 的 。 由 于 图 像 编码 的 方法 很 多 ， 采 用 不 
同 的 编码 方法 得 到 的 数据 格式 是 完全 不 同 的 。 世 界 范围 内 有 许多 大 公司 从 事 图 像 处 理 技术 的 研 
究 和 开发 工作 ， 他 们 在 推出 图 像 处 理 软件 的 同时 ， 各 自 采 用 适当 的 图 像 编码 方式 以 及 记录 格式 ， 
因此 ， 形 成 了 许多 图 像 文件 格式 。 

图 像 文件 的 主要 内 容 是 图 像 数据 。 为 了 让 图 像 处理 软 件 能 够 识别 这 些 数据 ， 图 像 文件 中 还 
必须 包含 一 些 控制 数据 以 解释 图 像 数 据 的 格式 和 特征 。 这 样 ， 图 像 处 理 软件 才能 对 该 图 像 数 据 


进行 识别 、 解 码 、 编 辑 、 显 示 等 处 理 。 

软件 ID 
软件 版 本 号 
图 像 分 辩 率 

文 
图 像 尺寸 

件 

头 

文 

件 

体 

文 

件 

尾 YY 











































































































文件 头 的 主要 内 容 包括 产生 或 编辑 该 图 像 文件 的 软件 的 
信息 以 及 图 像 本 身 的 参数 。 这 些 参数 必须 完整 地 描述 图 像 数 
据 的 所 有 特征 ， 因 此 是 图 像 文件 中 的 关键 数据 。 当 然 ， 根 据 
不 同 的 文件 ， 有 的 参数 是 可 选 的 ， 如 压缩 算法 。 有 的 文件 无 
压缩 ， 有 的 文件 可 选择 多 种 方法 压缩 。 

文件 体 主要 包括 图 像 数 据 以 及 颜色 查找 表 或 调 色 板 数 
据 。 这 部 分 是 文件 的 主体 ， 对 文件 容量 的 大 小 起 决定 作用 。 
如 果 是 真 彩色 图 像 ， 则 无 颜色 查找 表 或 调 色 板 数据 。 

文件 尾 可 包含 一 些 用 户 信息 。 文 件 尾 是 可 选项 ， 有 的 文 
件 格式 不 包括 这 部 分 内 容 。 由 于 文件 体 数据 量 较 之 文件 头 与 
文件 尾 要 大 得 多 ， 而 文件 体 中 颜色 查找 表 或 调 色 板 数据 所 占 
用 的 空间 一 般 也 比 图 像 数 据 小 得 多 ， 因 此 图 像 文 件 的 容量 一 
般 能 够 表示 图 像 数据 的 容量 ( 压缩 或 无 压缩 ) 。 

当然 ， 这 只 是 一 个 大 概 的 图 像 文件 结构 说 明 ， 实 际 的 结 
构 根 据 不 同 的 格式 其 中 的 条 目 要 细 得 多 ,结构 也 复杂 得 多 ， 
各 个 条 目 所 占 空间 及 条 目 间 的 排列 顺序 也 大 不 相同 。 目 前 还 图 7-1 图像 文 件 结构 示意 图 
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一 般 的 图 像 文件 主要 包含 文件 头 、 文 件 体 和 文件 尾 等 三 


部 分 ， 其 结构 如 图 7-1 所 示 。 
| 


























图 像 数 据 


颜色 查找 表 


f 











gg 
主 




















包 像 视频 文 信 格 式 四 


没有 统一 的 图 像 文件 格式 。 但 大 多 数 图 像 处 理 软件 都 与 数 种 图 像 文 件 格式 相 兼 容 ， 即 可 读 取 多 
种 不 同 格式 的 图 像 文件 。 这 样 ， 不 同 的 图 像 格 式 间 可 相互 转换 。 当 然 ， 还 有 专门 的 图 像 格 式 转换 
软件 ， 用 于 各 种 图 像 格 式 间 的 转换 。 

几乎 所 有 的 图 像 文件 都 采用 各 自 简化 的 格式 名 作为 文件 扩展 名 。 从 扩展 名 就 可 知道 这 幅 图 
像 是 按 什 么 格式 存储 的 ， 应 该 用 什么 样 的 软件 去 读 / 写 。 















































7.2.3 BMP 文件 格式 


BMP 图 像 文 件 格 式 是 Microsoft 公司 为 其 Windows 环境 设置 的 标准 图 像 文件 格式 ， 而 且 Win- 
dows 系统 软件 中 还 同时 内 含 了 一 系列 支持 BMP 图 像 处 理 的 API ( Application Program Interface， 应 
用 程序 接口 ) 函数 ， 随 着 Windows 在 世界 范围 内 的 不 断 普 及 ，BMP 文件 格式 无 疑 也 已 经 成 为 PC 
机 上 的 流行 图 像 文件 格式 。 它 的 主要 特点 可 以 概括 如 下 。 

1) 每 个 文件 只 能 存放 一 幅 图 像 。 

2) 图 像 数 据 是 否 采 用 压缩 方式 存放 ， 取 决 于 文件 的 大 小 与 格式 ， 即 压缩 处 理 成 为 图 像 文 件 
的 一 个 选项 ， 用 户 可 以 根据 需要 进行 选择 。 其 中 ， 非 压缩 格式 是 BMP 图 像 文件 所 采用 的 一 种 通 
用 格式 。 但 是 ， 如 果 用 户 确 定 将 BMP 文件 格式 压缩 处 理 ， 则 Windows 设计 了 两 种 压缩 方式 ， 如 
果 图 像 为 16 色 模 式 ， 则 采用 RLE4 压缩 方式 ; 奉 图 像 为 256 色 模 式 ， 则 采用 RLE8 压缩 方式 。 

3) 可 以 存储 2 色 、16 色 、256 色 、16 位 色 以 及 24 位 真 彩色 四 种 图 像 数 据 。 

总 之 ，BMP 图 像 文件 格式 拥有 许多 适合 于 Windows 环境 的 新 特色 ， 而 且 随 着 Windows 版 本 的 不 
断 更 新 ，Microsoft 公司 也 在 不 断 改进 其 BMP 图 像 文 件 格式 。 例 如 ， 当 前 BMP 图 像 文件 版 本 中 允许 
采用 32 位 颜色 表 ， 而 且 针 对 32 位 Windows 的 产生 ， 相 应 的 API 函数 也 在 不 断 地 推陈出新 。 

BMP 图 像 文件 主要 由 位 图 文件 头 (Bitmap File Header) 、 位 图 信息 头 〈Bitmap Information 
Header) 、 位 图 调 色 板 (Bitmap Palette) 和 位 图 数据 (Bitmap Data) 四 部 分 组 成 ， 其 组 成 结构 如 
表 7-2 所 示 。 
















































































表 7-2 BMP 位 图 文件 的 组 成 





















































位 图 文件 的 组 成 部 分 各 部 分 的 标识 名 称 各 部 分 的 作用 与 用 途 
位 图 文件 头 BITMAPFILEHEADER 说 明文 件 的 类 型 和 位 图 数据 的 起 始 位 置 等 ， 共 14 字 节 

说 明 位 图 文件 的 大 小 、 位 图 的 高 度 和 宽度 、 位 图 的 颜色 格式 和 不 
位 图 信息 头 ADI AD be 胃 位 图 文件 的 大 小 、 位 图 的 高 度 和 宽度 、 位 图 的 颜色 格式 和 压 

缩 类 型 等 信息 ， 共 40 字 节 

Sr 由 位 图 的 颜色 格式 字段 所 确定 的 调 色 板 数组 ， 数 组 中 的 每 个 元 素 
立 图 调 色 RGBOUAD 
和 a 是 一 个 RGBQUAD 结构 ， 占 4 字 节 

六 图 数据 位 图 的 压 -确定 了 该 数据 陈列 是 压缩 数据 或 是 
位 图 数据 i 位 图 数据 ， 位 图 的 压缩 格式 确定 了 该 数据 阵列 是 压缩 数据 或 是 非 

















压缩 数据 








1. 位 图 文件 头 
位 图 文件 头 BITMAPFILEHEADER 可 定义 为 如 下 的 结构 : 
typedef struct tagBITMAPFILEHEADER | 
WORD bfType; 
DWORD bfSize; 
WORD bfReservedl ; 
WORD bfReserved2 ; 
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为 











l= 














像 己 视频 处 理 





DWORD 


bfOffBits ; 


上 BITMAPFILEHEADFR ; 











这 个 结构 的 长 度 是 固定 的 ， 为 14 字 节 ， 其 中 WORD 为 16bit 无 符号 整数 ，DWORD 为 32bit 


无 符号 整数 。 各 个 字段 的 











具体 描述 如 表 7-3 所 示 。 














表 7-3 BITMAPFILEHEADER 各 个 字段 的 含义 





























字段 名 字段 长 度 字段 含义 
可 各 指定 文件 类 型 ， 在 Windows 操作 系统 中 必须 是 0x424D ， 即 字符 串 “BM”， 即 所 有 
. bmp 文件 的 头 两 个 字 节 都 是 “BM” 
bfSize 4 字 节 指定 包括 位 图 文件 头 在 内 的 位 图 文件 的 大 小 ， 单 位 为 字 节 
bfReserved1l 2 字 节 保留 字 ， 必 须 为 0 
bfReserved2 2 字 节 保留 字 ， 必 须 为 0 
bfOffBits 4 字 节 指定 从 文件 头 到 实际 的 位 图 数据 的 偏 移 字 节 数 ， 即 表 7-2 中 前 3 个 部 分 的 长 度 之 和 











下 面 以 一 幅 256 色 (8 位 ) 的 BMP 图 像 为 例 做 一 个 简单 的 说 明 。 一 幅 256 色 的 BMP 图 像 的 
文件 头 大 致 具有 如 下 数据 : 
42 4D 40 04 00 00 00 00 00 00 36 04 00 00 
文件 头 前 2 个 字 节 42 4D 是 ASCII 码 的 “BM”， 标 记 文 件 类 型 。 接 下 来 是 文件 大 小 ， 单 位 是 
字 节 。 文件 大 小 占用 4 字 节 ， 如 40 04 00 00 表示 文件 大 小 为 0x0440 〈 十 六 进 制 ) 字 节 。 接 下 来 4 
字 节 为 保留 字 节 ， 必 须 为 0。 从 偏 移 0Ah 开始 ， 即 36 04 00 00 表示 位 图 信息 部 分 在 文件 中 的 偏 
移 。 如 文件 头 从 0x0000 到 0x0035 ， 调 色 板 从 0x0036 到 0x0435 ， 那 么 位 图 信息 起 始 于 0x0436， 低 
位 在 前 ， 高 位 在 后 ， 就 是 现在 的 36 04。 
2. 位 图 信息 头 
位 图 信息 头 BITMAPINFOHEADER 可 定义 为 如 下 的 结构 。 
typedef struct tagBITMAPINFOHEADER | 
DWORD biSize; 
LONG biWidth; 
LONG biHeight; 
WORD biPlanes; 
WORD biBitCount 
DWORD biCompression; 
DWORD biSizelmage; 
LONG biXPelsPerMeter; 
LONG biYPelsPerMeter; 
DWORD biClrUsed; 
DWORD biClrImportant; 
| BITMAPINFOHEADFR 
这 个 结构 的 长 度 是 国定 的 ， 为 0 字 节 ， 其 中 LONG 为 32bit 整数 。 各 个 字段 的 具体 描述 如 表 7-4 
所 示 。 





















































表 7-4 ” BITMAPINFOHEADER 各 个 字段 的 含义 


























字段 名 字段 长 度 字段 含义 
biSize 4 字 节 指定 位 图 信息 头 结构 的 长 度 ， 值 为 40 
biWidth 4 字 节 指定 位 图 的 宽度 ， 单 位 是 像素 

biHeight 4 字 节 指定 位 图 的 高 度 ， 单 位 是 像素 











222| 第 7 章 





原 和 栅 山 文件 必 区 3) (©) 


( 续 ) 


为 

















字段 名 字段 长 度 有 
biPlanes 2 字 节 指定 位 图 的 图 像 平面 数 ， 值 为 1 

指定 表示 颜色 时 要 用 到 的 位 数 ， 常 用 的 值 为 1 ( 黑 
8 (256 色 ) 、24 ( 真 彩色 图 ) 等 


























习 二 色 图 ) 、4 (16 色 图 ) 、 











biBitCount 2 字 节 

















指定 位 图 数据 是 否 压缩 和 采用 的 压缩 方式 ， 有 效 的 值 为 0、1 或 2， 分 别 对 应 于 
Windows 定义 的 BIL_RGB、BI_RLE8 和 BI_RLE4。 当 取 值 为 0 时 ， 表 示 没 有 压缩 ; 
biCompression 4 字 节 当 取 值 为 1 时 ， 表 示 采 用 8bit 的 RLE (Run Length Encoding, 游程 长 度 编码 ) 压 
缩 ， 即 BLRLE8; 当 取 值 为 2 时 ， 表 示 采 用 4bit 的 RLE 压缩 ， 即 BI_RLE4。 在 
Windows 中 的 位 图 ， 可 以 采用 RLE4 和 RLE8 的 压缩 格式 ,但 用 得 不 多 






























































指定 实际 的 位 图 数据 占用 的 字 节 数 ， 如 biCompression 为 BL_RGB， 则 该 项 可 




















biSizeImasge 4 字 节 
为 夫 
biXPelsPerMeter 4 字 节 指定 目标 设备 的 水 平分 辨 率 ， 单 位 是 每 米 的 像素 个 数 
biYPelsPerMeter 4 字 节 指定 目标 设备 的 垂直 分 辨 率 ， 单 位 是 每 米 的 像素 个 数 





























指定 位 图 中 实际 用 到 的 颜色 数 。 当 biClrUsed 的 值 不 为 0 时 ， 其 值 就 是 调 色 板 中 
biClrUsed 4 字 节 的 颜色 数 ; 当 biClrUsed 的 值 为 0 寸 ， 调 色 板 中 的 颜色 数 为 0 ( 当 biBitCount 为 24 
时 ) 或 25iBicom ( 当 biBitCount 为 1、4 或 8 时 ) 





























biChImportant 4 字 市 指定 位 图 中 重要 的 颜色 数 ， 如 果 该 值 为 零 ， 则 认为 所 有 的 颜色 都 是 重要 的 











3. 位 图 调 色 板 
位 图 调 色 板 是 对 那些 需要 调 色 板 的 位 图 文件 而 言 的 。 对 于 有 些 位 图 ， 如 真 彩色 图 ， 是 不 需要 
调 色 板 的 ， 因 此 ，BITMAPINFOHEADER 后 直接 是 位 图 数据 。 调 色 板 实际 上 是 一 个 数组 ， 共 有 bi- 
ClrUsed 个 元 素 (如 果 该 值 为 零 ， 则 有 2 ”个 元 素 )。 数 组 中 每 个 元 素 的 类 型 是 一 个 RGBQUAD 
结构 ， 占 4 字 节 ， 其 定义 如 下 。 
typedef struct tagRGBQUAD | 
BYTE ”rgbBlue; /该 颜色 的 蓝 色 分 量 
BYTE rgbGreen; V 该 颜色 的 绿色 分 量 
BYTE ”rgbRed; /该 颜色 的 红色 分 量 
BYTE rgbReserved; /保留 字 节 , 值 为 0 
| RGBQUAD; 
4. 位 图 数据 
BMP 位 图 文件 的 第 4 部 分 就 是 实际 的 图 像 数 据 。 对 于 用 到 调 色 板 的 位 图 ， 图 像 数 据 就 是 该 
像素 颜色 在 调 色 板 中 的 索引 值 。 对 于 真 彩色 图 ， 图 像 数 据 就 是 0 ee 
图 ， 用 1bit 就 可 以 表示 该 像素 的 颜色 (一 般 用 “0” 表 示 黑 色 ， 用 “1” 表 示 白 色 )， 所 以 1 字 
el Re eg 
像素 。 对 于 256 色 位 图 ，1 字 节 刚好 可 以 表示 1 个 像素 。 对 于 真 彩色 图 ，3 字 节 才能 表示 1 个 
像素 。 
另外 值得 注意 的 两 点 是 : 首先 ， 每 一 行 的 字 节 数 必须 是 4 的 整 倍数 ， 如 果 不 是 ， 则 不 足 的 字 
节 需 要 用 0 补 齐 。 其 次 ， 通常 BMP 文件 的 数据 是 按 和 了 从 下 到 上 、 从 左 到 右 排 列 的 。 即 从 文件 中 
最 先 读 到 的 是 图 像 最 下 面 一 行 的 最 左边 的 像素 ， 然 后 是 该 行 左边 的 第 2 个 像素 …… 接 下 来 是 图 像 
的 倒数 第 二 行 的 最 左边 的 像素 ， 紧 接着 是 该 行 左 边 的 第 2 个 像素 ……: 依 此 类 推 , 最 后 是 最 上 面 一 
行 的 最 右边 的 那个 像素 。 
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7.2.4 GIF 文件 格式 


20 世纪 80 年 代 ， 美 国 一 家 著名 的 在 线 信息 服务 机 构 CompuServe 公司 针对 当时 网 络 传输 带宽 
的 限制 ， 推 出 了 GIF (Graphics Interchange Format ， 图 形 交 换 格式 ) 文件 格式 。GIF 文件 格式 采用 
了 一 种 经 过 改进 的 LZW (Lempel-Ziv- Welch) 压缩 算法 ， 存储 效率 高 ， 支 持 多 幅 图 像 定 序 或 覆 
盖 ， 交 错 多 屏幕 绘图 以 及 文本 覆盖 。 最 初 的 GIF ( 称 为 GIF 87 a) 只 是 简单 地 用 来 存储 单 幅 静 止 
图 像 。 后 来 随 着 技术 发 展 ，GIF 支持 在 一 个 GIF 文件 中 可 以 同时 存储 若干 幅 静 止 图 像 ， 并 且 可 以 
按照 一 定 的 顺序 和 时 间 间 隔 将 多 幅 图 像 依次 读 出 并 显示 在 屏幕 上 ， 进 而 形成 连续 的 动画 ， 这 种 
支持 2D 动画 的 格式 称 为 GIF 89a。 尽 管 GIF 最 多 只 支持 256 种 颜色 的 图 像 或 灰 度 图 像 ， 不 文 持 
24bit 的 真 彩色 图 像 ，GIF 文件 也 无 法 存储 CMYK 或 HIS 颜色 空间 模型 的 图 像 数 据 ， 但 是 由 于 它 
具有 极 佳 的 压缩 效率 并 且 可 以 做 成 动画 而 早已 被 广泛 接纳 采用 。 目 前 ，Intemet 上 大 量 采用 的 彩 
色 动 画 文 件 多 为 这 种 格式 的 文件 。 

GIF 主要 是 为 数据 流 而 设计 的 一 种 传输 格式 ， 而 不 是 作为 文件 的 存储 格式 。 换 句 话 说 ， 它 具 
有 顺序 的 组 织 形式 。GIF 由 5 个 主要 部 分 以 固定 顺序 出 现 ， 所 有 部 分 均 由 一 个 或 多 个 块 (block) 
组 成 。 每 个 块 的 第 一 个 字 节 中 存放 标识 码 或 特征 码 标识 。 这 些 部 分 的 顺序 为 : 文件 头 块 、 逻 辑 屏 
幕 描述 块 、 可 选 的 “全 局 ”色彩 表 ( 调 色 板 ) 、 各 个 图 像 数据 块 (或 专用 的 块 ) 以 及 文件 结尾 
块 〈 结 束 码 ) 。GIF 图 像 文件 的 组 成 如 表 7-5 所 示 。 


表 7-5 GIF 文件 的 组 成 

























































































































































































































































































文件 头 块 Header 识别 标识 符 “GIF” 和 版 本 号 (“87a” 或 “89a”) 
0 . 定义 包围 所 有 后 面 图像 的 一 个 图 像 平面 的 大 小 、 纵 横 尺 寸 和 
逻辑 屏幕 描述 块 Logical Screen Descriptor 颜色 深度 ， 以 及 是 否 存 在 全 局 色彩 表 
色彩 表 的 大 小 由 该 图 像 使 用 的 颜色 数 决 定 ， 若 表示 颜色 的 二 
全 局 色彩 表 ( 调 色 板 ) | Global Color Table 进 制 数 为 111， 换 算 成 十 进 制 数 为 7， 则 图 像 使 用 的 颜色 数 
为 256 

Image Descriptor 图 像 描 述 块 

Local Color Table 局 部 调 色 板 (可 重复 n 次 ) 

Table Based Image Data 表 式 图 像 压缩 数据 块 
图 像 数 据 块 Graphic Control Extension 图 形 控 制 扩展 块 可 重复 n 次 

Plain Text Extension 无 格式 文本 扩展 块 

Comment Extension 注释 扩展 块 

Application Extension 应 用 程序 扩展 块 
文件 结尾 块 GIF Trailer 值 为 0x3B， 表 示 数 据 流 已 经 结束 














1. 文件 头 块 
GIF 的 文件 头 只 有 6 字 节 ， 其 结构 定义 如 下 。 
typedef struct gifheader| 
BYTE bySignature[ 3 ] ; 
BYTE byVersion[3] ; 
} GIFHEADER ; 


其 中 ，bySignature 为 GIF 文件 标识 码 ， 其 固定 值 为 字符 串 “GIF”， 通 过 该 字段 来 判断 一 个 图 像 文 
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为 

















件 是 否 是 GIF 图 像 格式 的 文件 ; byVersion 表明 GIF 文件 的 版 本 信息 ， 其 取 值 固定 为 “87a” 和 


“89a”， 分 别 表 示 GIF 文件 的 版 本 为 GIF87a 或 GIF89a。 这 两 个 版 本 有 一 些 不 同 ，GIF87a 公布 的 
时 间 为 1987 年 ， 该 版 本 不 支持 动画 和 一 些 扩展 属性 。GIF89a 是 1989 年 确定 的 一 个 版 本 标准 ， 只 














有 89a 版 本 才 支 持 动画 、 注 释 扩展 和 文本 扩展 。 
2. 逻辑 屏幕 描述 块 











逻辑 屏幕 是 一 个 虚拟 屏幕 ， 相 当 于 画布 ， 所 有 的 操作 都 是 在 它 的 基础 上 进行 的 ， 同 时 它 也 决 

















定 了 图 像 的 高 度 和 宽度 。 逻 辑 屏 幕 描述 块 共 占有 7 字 节 ， 其 


~ 


typedef struct gifscrdesc 


| 























具体 结构 定义 如 下 。 


















































WORD wWidth; /* 指定 逻辑 屏幕 的 宽度 * / 
WORD wDepth; /* 指定 逻辑 屏幕 的 高 度 */ 
struct globalflag /* 全 域 性 数据 ,其 总 长 度 为 1 字 季 */ 
| 
BYTE PalBits: 3; /* 全 局 调 色 板 的 位 数 * / 
BYTE SortFlag: 1; /* 全 局 调 色 板 中 的 RGB 颜色 值 是 否 按照 使 用 率 进 行 从 高 到 底 的 次 序 排 
序 的 */ 
BYTE ColorRes: 3; /* 指定 图 像 的 色彩 分 辨 率 * / 
BYTE GlobalPal: 1; ”/* 指明 GIF 文件 中 是 否 具有 全 局 调 色 板 ,1 表示 有 ,0 表示 无 */ 
| GlobalFlag; 
BYTE byBackground; /* 指定 逻辑 屏幕 的 背景 颜色 ,相当 于 是 画布 的 颜色 * / 
BYTE byAspect; /* 指定 逻辑 屏幕 的 像素 的 宽 高 比 */ 
| GIFSCRDESC; 


注 : 一 个 GIF 文件 可 以 有 全 局 调 色 板 也 可 以 没有 全 局 调 色 板 ， 如 果 定 义 了 全 局 调 色 板 并 且 没 











有 定义 某 一 幅 图 像 的 局 部 调 色 板 ， 则 本 幅 图 像 采 用 全 局 调 色 板 ; 如 果 某 一 幅 图 像 定义 了 自己 的 

















大 小 由 GlobalFlag. PalBits 决定 ， 其 最 大 长 度 为 768 (3 x256) 字 节 。 全 局 调 色 板 的 数据 是 按照 


RGBRGBRGB… 的 方式 存储 的 。 
3. 图 像 描 述 块 











一 个 GIF 文件 中 可 以 存储 多 幅 图 像 ， 并 且 这 些 图 像 没有 固定 的 存放 次 序 。 为 了 区 分 两 幅 图 
像 ，GIF 采用 了 一 个 字 节 的 识别 码 ( Image Separator) 来 判断 下 面 的 数据 是 否 是 图 像 描 述 块 。 图 





局 部 调 色 板 ， 则 该 幅 图 像 使 用 自己 的 局 部 调 色 板 。 如 果 没 有 定义 全 局 调 色 板 ， 则 GIF 文件 中 的 每 
一 幅 图 像 都 必须 定义 自己 的 局 部 调 色 板 。 全 局 调 色 板 必须 紧 跟 在 逻辑 屏幕 描述 块 的 后 面 ， 其 
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像 描述 块 以 0x2C 开始 ， 定 义 紧 接 着 它 的 图 像 的 性 质 ， 包 括 图 像 相 对 于 人 逻辑 屏幕 边界 的 偏 移 量 、 
图 像 大 小 以 及 有 无 局 部 调 色 板 和 调 色 板 的 大 小 。 图 像 描述 块 由 10 字 节 组 成 其 具体 结构 定义 


















































如 下 。 

typedef struct gifimage 

| 
WORD wLeft; /* 指定 图 像 相 对 逻辑 屏幕 左上 角 的 X 坐标 ,以 像素 为 单位 * / 
WORD wTop; /* 指定 图 像 相 对 人 逻辑 屏幕 左上 角 的 Y 坐标 */ 

WORD wWidth; /* 指定 图 像 的 宽度 */ 

WORD wDepth; /* 指定 图 像 的 高 度 */ 

struct localflag /* 指定 区 域 性 数据 , 即 具体 一 幅 图 像 的 属性 ,总 长 度 为 1 字 节 */ 


| 
BYTE PalBits: 3; /+#* 局 部 调 色 板 的 位 数 * / 











BYTE Reserved: 2; ”/# 保 留 位 ,没有 使 用 ,其 值 固 定 为 0*/ 
BYTE SortFlag: 1; /* 局 部 调 色 板 中 的 RGB 颜色 值 是 否 经 过 排序 ,其 值 为 1 表示 调 色 板 中 的 





























RGB 颜色 值 是 按照 其 使 用 率 从 高 到 底 的 次 序 进行 排序 * / 
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像 与 视频 处 理 














BYTE Interlace: 1; ”/* GIF 图 像 是 否 以 交错 方式 存储 ,为 1 表示 以 交错 的 方式 进行 存储 * / 
BYTE LocalPal: 1; /* 指明 GIF 图 像 是 否 含 有 局 部 调 色 板 , 如果 含有 局 部 调 色 板 , 则 局 部 调 
色 板 的 内 容 应 当 紧 跟 在 图 像 描述 块 的 后 面 * / 




















| LocalFlag; 
| GIFIMAGE; 


当 图 像 按 照 交 错 方式 存储 时 ， 其 图 像 数 据 的 处 理 可 以 分 为 4 个 阶段 : 第 一 阶段 从 第 0 行 开 
始 ， 每 次 间隔 8 行进 行 处 理 ; 第 二 阶段 从 第 4 行 开 始 ， 每 次 间隔 8 行进 行 处 理 ; 第 三 阶段 从 第 2 
行 开 始 ， 每 次 间隔 4 行进 行 处 理 ; 第 四 阶段 从 第 1 行 开 始 ， 每 次 间隔 2 行进 行 处 理 。 这 样 当 完成 
第 一 阶段 时 就 可 以 看 到 图 像 的 概貌 ， 当 处 理 完 第 二 阶段 时 ， 图 像 会 变 得 清晰 一 些 ， 当 人 处理 完 第 三 
阶段 时 ， 图像 处 理 完成 一 半 ， 清 晰 效果 也 进一步 增强 ， 当 完成 第 四 阶段 ， 图 像 处 理 完毕 ， 显 示 出 
完整 清晰 的 整 幅 图 像 。 以 交错 方式 存储 是 GIF 文件 格式 的 一 个 重要 的 特点 ， 也 是 GIF 文件 格式 的 
一 个 重要 的 优点 ， 即 无 须 将 整个 图 像 文 件 解压 完成 就 可 以 看 到 图 像 的 概貌 ,减少 用 户 的 等 待 
时 间 。 

4. 图 像 压缩 数据 

图 像 压缩 数据 是 按照 GIF-LZW 压缩 编码 后 存储 于 图 像 压 缩 数 据 块 中 的 。GIF-LZW 编码 是 一 
种 经 过 改良 的 LZW 编码 方式 ， 是 一 种 无 损 压缩 的 编码 方法 。 其 编码 方法 是 将 原始 数据 中 的 重复 
字符 串 建立 一 个 字符 串 表 ， 然后 用 该 重复 字符 串 在 字符 串 表 中 的 索引 来 蔡 代 原始 数据 以 达到 压 
缩 的 目的 。 由 于 GIF-LZW 压缩 编码 的 需要 ， 必 须 首先 存储 GIF-LZW 的 最 小 编码 长 度 以 供 解码 程 
序 使 用 ， 然 后 再 存储 编码 后 的 图 像 数据 。 编 码 后 的 图 像 数 据 是 以 数据 子 块 的 方式 存储 的 ， 每 个 数 
据 子 块 的 最 大 长 度 为 256 字 节 。 数 据 子 块 的 第 一 个 字 节 指定 该 数据 子 块 的 长 度 ， 接 下 来 的 数据 为 
数据 子 块 的 内 容 。 如 果 某 个 数据 子 块 的 第 一 个 字 节 数值 为 0， 即 该 数据 子 块 中 没有 包含 任何 有 用 
数据 ， 则 该 子 块 称 为 块 终结 符 ， 用 来 标识 数据 子 块 到 此 结束 。 

5. 图 形 控制 扩展 块 

图 形 控制 扩展 块 是 可 选 的 ， 只 应 用 于 GIF89a 版 本 ， 它 描述 了 与 图 形 控制 相关 的 参数 。 一 般 情 
况 下 ， 图 形 控制 扩展 块 位 于 一 个 图 像 块 (包括 图 像 标 识 符 、 局 部 调 色 板 和 图 像 数 据 ) 或 文本 扩展 块 
的 前 面 ， 用 来 控制 跟 在 它 后 面 的 第 一 个 图 形 (或 文本 ) 的 泻 染 形式 ， 其 具体 结构 定义 如 下 。 

typedef struct gifcontrol 


| 






































































































































































































































BYTE byBlockSize; /* 指定 该 图 形 控 制 扩 展 块 的 长 度 , 其 取 值 固 定 为 4*/ 
struct flag /* 描述 图 形 控制 相关 数据 , 它 的 长 度 为 1 字 节 */ 
| 
BYTE Transparency : 1; /* 指定 图 像 中 是 否 具有 透明 性 的 颜色 ,“1” 表 明 图 像 中 某 种 颜色 
具有 透明 性 ,该 颜色 由 参数 byTransparencyIndex 指定 */ 
BYTE UserInput : 1; /* 判断 在 显示 一 幅 图 像 后 ,是 否 需 要 用 户 输入 后 再 进行 下 一 个 动 
作 。 如 果 该 位 为 1, 则 表示 应 用 程序 在 进行 下 一 个 动作 之 前 需要 
用 户 输入 */ 








BYTE DisposalMethod : 3; /* 指定 图 像 显 示 后 的 处 理 方式 ,“0” 表 示 没 有 指定 任何 处 理 方式 ，; 















































“1” 表 明 不 进行 任何 处 理 动 作 ;“2” 表 明 图 像 显 示 后 以 背景 
擦 去 ;“3” 表 明 图 像 显 示 后 恢复 原先 的 背景 图 像 * / 
BYTE Reserved : 3; /* 保 留 位 ,没有 任何 含义 ,固定 为 0*/ 
| Flag; 

WORD wDelayTime; /+ 指定 应 用 程序 进行 下 一 步 操作 之 前 延迟 的 时 间 ,单位 为 0.01 秒 */ 

BYTE byTransparencyIndex; /* 指 定 图 像 中 透明 色 的 颜色 索引 ,指定 的 透明 色 将 不 在 显示 设备 
上 显示 */ 

BYTE byTerminator; /* 块 终结 符 , 其 值 固 定 为 0*/ 

| GIFCONTROL; 
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6. 无 格式 文本 扩展 块 

无 格式 文本 扩展 块 又 称 为 图 像 说 明 扩 展 块 ， 用 来 绘制 一 个 简单 的 文本 图 像 ， 由 用 来 绘制 的 
纯 文本 数据 (7 位 的 ASCI 字符 ) 和 控制 绘制 的 参数 等 组 成 。 绘 制 文本 借助 于 一 个 文本 框 来 定义 
边界 ， 在 文本 框 中 划分 多 个 单元 格 ， 每 个 字符 占用 一 个 单元 ， 绘制 时 按 从 左 到 右 、 从 上 到 下 的 顺 
序 依次 进行 ， 直 到 最 后 一 个 字符 或 者 占 满 整个 文本 框 (之 后 的 字符 将 被 忽略 ， 因 此 定义 文本 框 
的 大 小 时 应 该 注意 到 是 否 可 以 容纳 整个 文本 ) ， 绘 制 文本 的 颜色 使 用 全 局 调 色 板 ， 没 有 则 可 以 使 
用 一 个 已 经 保存 的 前 一 个 调 色 板 。 无 格式 文本 扩展 块 的 具体 结构 定义 如 下 。 


typedef struct gifplaintext 


| 
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BYTE byBlockSize; /* 指定 该 图 像 扩 展 块 的 长 度 , 其 取 值 固定 为 13 */ 
WORD wTextGridLeft; /* 指定 文字 显示 方 格 相 对 于 逻辑 屏幕 左上 角 的 X 坐标 ( 以 像素 为 单 
位 ) * 7 

WORDwTextCridTop ; /* 指定 文字 显示 方 格 相对 于 逻辑 屏幕 左上 角 的 了 坐标 */ 
WORDwTextGridWidth; ”人 * 指定 文字 显示 方 格 的 宽度 */ 

WORDwTextCridDepth ; /* 指定 文字 显示 方 格 的 高 度 * / 

BYTEbyCharCellWidth; /* 指定 字符 的 宽度 * / 

BYTEbyCharCellDepth ; /* 指定 字符 的 高 度 * / 

BYTEbyForeColorIndex; /* 指定 字符 的 前 景色 */ 

BYTEbyBackColorIndex; /* 指定 字符 的 背景 色 */ 
上 GIFPLAINTEXT; 


7. 注释 扩展 块 

注释 扩展 块 包含 了 图 像 的 文字 注释 说 明 ， 可 以 用 来 记录 图 形 、 版 权 、 描 述 等 任何 的 非 图 形 和 
控制 的 纯 文本 数据 (7 位 的 ASCII 字符 ) ， 注 释 扩 展 块 并 不 影响 对 图 像 数据 流 的 处 理 ， 解 码 器 完 
全 可 以 忽略 它 。 存 放 位 置 可 以 是 数据 流 的 任何 地 方 ， 最 好 不 要 妨 但 控制 和 数据 块 ， 推 荐 放 在 数据 
流 的 开始 或 结尾 。GIF 中 用 识别 码 0xFE 来 判断 一 个 扩展 块 是 否 为 注释 扩展 块 。 注 释 扩 展 块 中 的 
数据 子 块 个 数 不 限 ， 必 须 通过 块 终结 符 来 判断 该 扩展 块 是 否 结束 。 

8. 应 用 程序 扩展 块 

应 用 程序 扩展 块 包 含 了 制作 该 GIF 文件 的 应 用 程序 的 信息 ，GIF 中 用 识别 码 0xFF 来 判断 一 
个 扩展 块 是 否 为 应 用 程序 扩展 块 。 它 的 结构 定义 如 下 。 


typedef struct gifapplication 


| 




































































BYTE byBlockSize; /* 指定 该 应 用 程序 扩展 块 的 长 度 , 取 值 固定 为 12 */ 
BYTE byIdentifier[ 8 ] ; /* 指定 应 用 程序 名 称 * / 

BYTE byAuthentication[ 3]; A/* 指定 应 用 程序 的 识别 码 * / 

| GIFAPPLICATION; 


9. 文件 结尾 块 
文件 结尾 块 为 GIF 文件 的 最 后 一 个 字 节 ， 其 取 值 固定 为 0x3B。 


7.2.5 JPEG 文件 交换 格式 


JPEG 是 Joint Photographic Experts Group 的 缩写 ，x. jpg/ * . jpeg 文件 采用 JPEG 压缩 算法 ， 是 
最 为 常见 的 一 种 压缩 图 像 文件 ， 如 网 络 上 传输 的 图 像 文件 大 都 是 * ,jpgy * . jpeg 文件 。JPEG 在 抽 
定 JPEG 标准 时 ， 定 义 了 许多 标记 来 区 分 和 识别 图 像 数据 及 其 相关 信息 ， 但 对 JPEG 文件 交换 格 
式 没有 明确 的 定义 。 目 前 使 用 比较 广泛 的 JPEG 文件 交换 格式 (JPEG File Interchange Format， 
JFIF) 是 1992 年 9 月 由 Eric Hamilton 提出 的 ， 版 本 号 为 1.02。 

在 JFIF 文件 格式 中 ， 图 像样 本 的 存放 顺序 是 从 左 到 右 和 从 上 到 下 ， 即 文件 中 的 第 一 个 图 像 
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样本 是 图 像 左 上 角 的 样本 。JFIF 文件 格式 直接 使 用 JPEG 标准 为 应 用 程序 定义 的 许多 标记 ， 因 此 
JFIF 格式 成 了 事实 上 JPEG 文件 交换 格式 标准 。JPEG 的 每 个 标记 都 是 由 2 字 节 组 成 ， 其 前 一 个 字 
节 是 固定 值 0xFF。 每 个 标记 之 前 还 可 以 添加 数目 不 限 的 0xFF 填充 字 节 。 一般 的 JFIF 文件 由 下 面 
的 9 个 部 分 组 成 。 

1. SOI ( Start of Image， 图 像 开 始 ) 标记 

占 2 字 节 ， 其 值 为 0xFFD8。 任 何 JPEG 文件 都 以 该 标记 开头 ， 因 此 可 以 将 该 标记 作为 判断 一 
个 图 像 文件 是 否 为 JPEG 格式 文件 的 依据 。 

2. APP0 标记 

APP0 是 JPEG 保留 给 应 用 程序 使 用 的 标记 ， 而 JFIF 将 文件 的 相关 信息 定义 在 此 标记 中 ， 标 
识 JFIF 应 用 数据 块 (APP0 域 ) 的 开始 。APPO 标记 的 前 2 个 字 节 为 固定 的 值 0xFFE0， 其 后 的 
APP0 域 中 顺序 包含 了 下 列 字 段 。 

(QD APP0 长 度 (length) : 占 2 字 节 ， 内 容 不 定 (中 ~G@ 共 9 个 字段 的 总 长 度 ) 。 

@ 标识 符 〈identifier) : 占 5 字 节 ， 其 值 为 0x4A46494600， 即 “JFIF0”， 用 于 识别 APPO 的 
标记 。 

图 版 本 号 (version) : 占 2 字 节 ， 如 JFIF 的 版 本 号 是 1.02 ， 则 其 值 为 0x0102。 

@) X 和 YY 的 密度 单位 (units) : 占 1 字 节 ， 只 有 0、1、2 三 个 值 可 选 。units =0 表示 无 单位 ， 
units =1 表示 单位 为 点 数 / 英 寸 ，units =2 表示 单位 为 点 数 / 厘 米 。 

(69) X 方 向 像素 密度 (X density) : 占 2 字 节 ， 取 值 范围 未 知 。 

(@ TY 方向 像素 密度 (Y density) : 占 2 字 节 ， 取 值 范围 未 知 。 

@ 缩 略 网 水 平 像素 数目 (thumbnail horizontal pixels) : 占 工 字 节 ， 取 值 范围 未 知 。 

缩 略 图 垂 直 像 素数 目 (thumbnail vertical pixels ) : 占 1 字 节 ， 取 值 范 赎 未 知 。 

@O) 缩 略 网 RGB 位 图 (thumbnail RGB bitmap ) : 占 3 字 节 ， 其 中 了 为 缩 略 图 的 像素 数 。 

APP0 域 可 以 包含 图 像 的 一 个 微缩 版 本 。 如 果 没 有 缩 略 图 (这 种 情况 更 常见 ) ， 则 缩 略 图 水 
平 像素 数目 和 缩 略 图 垂直 像素 数目 的 值 均 为 0。 

3. APPn (其 中 n=1~15) 标记 

APPn 标记 的 前 2 个 字 节 的 取 值 为 OxFFE1 ~0xFFEF 之 一 (取决 于 n 的 值 ) ， 标 识 应 用 数据 块 
(APPn 域 ) 的 开始 ， 其 中 中 =1 ~15 ( 任 选 )。 每 个 APPn 域 包含 了 下 列 字 段 。 

Q) APPn 长 度 (length): 占 2 字 节 ， 内 容 不 定 (包含 中 和 G@) 共 2 个 字段 的 总 长 度 ) 。 

@) 应 用 特定 信息 (application specific information ) 。 

4. DQT ( Define Quantization Table ， 定 义 量 化 表 ) 标记 

DQT 标记 包含 若干 个 量化 表 。 每 个 量化 表 都 是 以 0xFFDB 开始 ， 其 后 跟 2 个 字 节 的 量化 表 长 
度 (quantization table length) 字段 ; 后面 是 1 字 节 的 量化 表 序 号 ( quantization table number); 最 
后 是 64 字 节 的 量化 表 (quantization table) ， 量 化 表 中 的 系数 是 按照 Zig-Zag 扫描 顺序 存储 的 。 

5. SOF0 ( Start of Frame， 帧 图 像 开 始 ) 标记 

SOF0 标记 占 2 字 节 ， 其 值 为 0xFFC0。SOF0 标记 之 后 紧 跟 以 下 6 个 字段 。 

Q9 帧 开始 长 度 〈start of frame length): 占 2 字 节 ， 内 容 不 定 (包含 中 ~ @ 共 6 个 字段 的 总 
长 度 ) 。 

@) 精度 (precision ) : 占 1 字 节 ， 每 个 颜色 分 量 每 个 像素 的 位 数 (bits per pixel per color com- 
ponent) ， 通 常 是 8 (大 多 数 软件 不 支持 12 和 16)。 

(3 图 像 高 度 (image height) : 占 2 字 节 ， 内 容 不 定 (如 果 不 支 持 DNL， 就 必须 大 于 0)。 

@ 图 像 宽度 (image width) : 占 2 字 节 ， 内 容 不 定 (如果 不 支持 DNL， 就 必须 大 于 0)。 


228| 第 7 章 








为 








像 己 视频 处 理 




























































































































































































为 


医 和 视频 文 作息 式 (©) 


(9) 颜色 分 量 数 (number of color components) : 占 1 字 节 ， 内 容 不 定 (对 于 灰 度 图 ， 其 值 是 
1; 对 于 YC,C,AYIQ 彩色 图 ， 其 值 是 3; 对 于 CMYK 彩色 图 ， 其 值 是 4)。 
(© 对 每 个 颜色 分 量 的 量化 设置 : 共 占 9 字 节 。 对 每 个 颜色 分 量 ， 有 3 个 字 节 的 设置 ， 其中: 
。ID: 占 1 个 字 节 , ID =1 代 表 Y,， ID =2 代表 C,, ID =3 代表 C,, ID =4 代表 I, ID=5 代 
Q; 
。 垂直 方向 的 样本 因子 (vertical sample factor) : 占用 1 个 字 节 的 低 4 位 ; 
。 水 平方 向 的 样本 因子 (horizontal sample factor): 占用 1 个 字 节 的 高 4 位 ; 
。 量化 表 序 号 ( quantization table number) : 占 1 个 字 节 。 
6. DHT ( Define Huffman Table， 定 义 哈 夫 曼 表 ) 标记 
DHT 标记 包含 若干 个 哈 夫 曼 表 ， 每 个 哈 夫 曼 表 均 以 0xFFC4 开始 ， 其 后 紧 跟 以 下 2 个 字段 。 
Q 哈 夫 曼 表 的 长 度 ( Huffman table length) : 占 2 字 节 ， 内 容 不 定 (包含 和 @@ 2 个 字段 的 
总 长 度 )。 
@) 对 每 个 哈 夫 曼 表 (一 般 情 况 下 ， 哈 夫 曼 表 不 止 一 个 ,但 是 绝对 不 多 于 4 个 )， 包 括 : 
。 表 号 : 占用 1 字 节 的 低 4 位 。 
。 类 型 : 占用 1 字 节 的 高 4 位 , 0 代表 DC 表 , 1 代表 AC 表 。 
。 索引 (Index) 。 
e 位 表 (bits table) 。 
e 值 表 (value table) 。 
7. DRI ( Define Restart Interval， 定 义 重新 开始 间隔 ) 标记 
在 没有 DRI 标记 或 间隔 为 零 时 ， 就 不 存在 重新 开始 间隔 和 重新 开始 标记 。 
DRI 标记 占 2 字 节 ， 其 值 为 0xFFC4， 其 后 紧 跟 以 下 2 个 字段 。 
@ 长 度 : 占 2 字 节 ， 其 值 为 0x0004 (包含 和 @ 2 个 字段 的 总 长 度 ) 。 
@) MCU 块 的 单元 中 的 重新 开始 间隔 : 占用 2 字 节 ， 内 容 不 定 (假设 其 值 为 nx， 则 意味 着 每 nn 
个 MCU 块 就 有 一 个 RST 标记 。 第 一 个 标记 是 RSTO ， 然 后 是 RST1，…，RST7 ， 再 从 RSTO 开始 
以 模 8 (modulo 8) 方式 重复 ) 。 
8. SOS ( Start of Scan ， 扫 描 开 始 ) 标记 
SOS 标记 占 2 字 节 ， 其 值 为 0xFFDA， 其 后 紧 跟 以 下 2 个 字段 。 
GD 扫描 开始 长 度 (start of scan length): 占 2 字 节 ， 内 容 不 定 。 
@) 颜色 分 量 数 (number of color components) : 占 1 字 节 ， 内 容 不 定 (对 于 灰 度 图 ， 其 值 是 
1; 对 于 YC,C,AYIQ 彩色 图 ， 其 值 是 3; 对 于 CMYK 彩色 图 ， 其 值 是 4)。 
@) 对 每 个 颜色 分 量 ， 包 括 : 
。ID: 占 1 字 节 , JD=1 代表 Y, ID =2 代 表 C，ID =3 代 表 C.，ID =4 代表 I, ID=5 代 
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Q。 
。 交流 系数 表 号 (AC table number) : 占用 1 字 节 的 低 4 位 ; 

e 直流 系数 表 号 (DC table number) : 占用 1 字 节 的 高 4 位 ; 

@ 压缩 图 像 数 据 (compressed image data ) ， 包括 : 

。 频谱 选择 开始 : 占 1 字 节 ， 其 值 为 0x00。 

。 频谱 选择 结束 占 1 字 节 ， 其 值 为 0x3F。 

。 两 个 4 位 字段 ， 高 位 和 低位 的 频谱 选择 ， 占 1 字 节 ， 在 基本 JPEG 中 其 值 为 0x00。 
。 数据 : 长 度 不 定 。 

9. EOI ( End of Image， 图 像 结束 ) 标记 

文件 以 EOI 标记 作为 文件 的 结束 。EOI 标记 占 2 字 节 ， 其 值 为 0xFFD9。 
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四 ) 数字 图 像 与 视频 处 理 


有 兴趣 的 读者 可 使 用 UltraEdit 等 文本 编辑 器 打开 一 个 JPEG 图 像 文 件 ， 对 上 面 所 描述 的 结构 
进行 分 析 和 验证 。 


7.2.6 ”其 他 图 像 文件 格式 


1. 标记 图 像 文 件 格 式 ( TIFF/TIF) 

TIFF (Tag Image File Format, 标记 图 像 文件 格式 ) 也 缩写 成 TF， 文 件 名 是 * .tif/ * . tiff， 
是 由 Aldus 和 Microsoft 公司 为 扫描 仪 和 旧 上 出 版 系统 研制 开发 的 一 种 较为 通用 的 图 像 文件 格式 ， 
最 早 流行 于 Macintosh 机 ， 现 在 Windows 上 主流 的 图 像 应 用 程序 都 支持 该 格式 。 目 前 ， 它 是 
Macintosh 和 PC 上 使 用 最 广泛 的 位 图 格式 ， 在 这 两 种 硬件 平台 上 移植 TIFT 格式 的 图 像 十 分 便捷 ， 
大 多 数 扫 描 仪 也 都 可 以 输出 TIFF 格式 的 图 像 文件 。 其 特点 是 : 存储 的 图 像 质量 高 ， 但 占用 的 存 
储 空间 也 大 。TIFF 格式 灵活 易 变 ， 它 定义 了 四 类 不 同 的 格式 : TIFF-B 适用 于 二 值 图 像 ;，TIFF-G 
适用 于 黑白 灰 度 图 像 ;，TIFF-P 适用 于 带 调 色 板 的 彩色 图 像 ， TIFF-R 适用 于 RGB 真 彩色 图 像 。 
TIFF 支持 多 种 编码 方法 ， 其 中 包括 RGB 无 压缩 、LZW 无 损 压 缩 、RLE ( Run Length Encoding， 
游程 编码 ) 压缩 及 JPEG 压缩 等 。 

在 Photoshop 中 ，TIFF 格式 能 够 支持 24 个 通道 ， 它 是 除 Photoshop 自 定义 的 PSD 格式 外 唯一 
能 够 存储 多 个 四 通道 的 文件 格式 。 另 外 , 在 3ds 中 也 可 以 生成 TIFF 格式 的 文件 。 *. tif 文件 被 
用 来 存储 一 些 色 彩 绚 丽 、 构 思 奇 妙 的 贴图 文件 ， 它 将 3ds、Macintosh 、Photoshop 有 机 地 结合 在 
一 起 

TIFF 文件 有 如 下 特点 。 

1) 善于 应 用 指针 的 功能 ， 可 以 存储 多 幅 图 像 。 

2) 文件 内 数据 区 没有 固定 的 排列 顺序 ， 只 规定 文件 头 必须 在 文件 前 端 ， 对 于 标识 信息 区 和 
像 数 据 区 在 文件 中 可 以 随意 存放 。 

3) 可 指定 私有 的 标识 信息 。 

4) 除了 一 般 图 像 处 理 常用 的 RGB 颜色 空间 模型 之 外 ，TIFF 文件 还 能 够 接受 CMYK 、YC,C， 
等 多 种 不 同 的 颜色 空间 模型 。 

5) 可 存储 多 份 调 色 板 数据 。 

6) 调 色 板 的 数据 类 型 和 排列 顺序 较为 特殊 。 

7) 能 提供 多 种 不 同 的 压缩 数据 方法 ， 便 于 使 用 者 选择 。 

8) 图 像 数据 可 分 割 成 几 个 部 分 分 别 存档 。 

2. PNG 文件 格式 

PNG (Portable Network Graphics ,便携式 网 络 图 形 ) 是 W3C 联盟 ( World Wide Web Consortium) 
在 20 世纪 90 年 代 中 期 开始 开发 的 专门 针对 网 页 设计 的 一 种 无 损 位 图 文件 存储 格式 ， 于 1996 年 10 
月 1 日 正式 公布 。 PNG 名 称 来 源 于 非 官 方 的 “PNG's Not GIF”， 读 成 “ping”。 

由 于 PNG 的 目标 是 为 了 取代 GIF， 因 此 PNG 保留 了 大 部 分 GIF 的 特性 ， 同 时 增加 了 一 些 GIF 
所 不 具备 的 特性 。 
PNG 文件 格式 保留 了 GIF 文件 格式 的 下 列 特性 。 

1) 使 用 彩色 查找 表 (或 者 称 调 色 板 ) ， 可 支持 256 种 颜色 的 彩色 索引 图 像 。 

2) 流 式 读 写 性 能 。 允 许 连续 读 出 和 写 入 图 像 数 据 ， 适 合 于 在 通信 过 程 中 生成 和 显示 图 像 。 

3) 渐进 显示 。 这 种 特性 可 使 在 通信 和 链 路 上 传输 图 像 文 件 的 同时 就 在 终端 上 很 快 地 用 低 分 辩 
率 显 示 整 个 图 像 轮廓 ， 然 后 逐步 改善 显示 图 像 质 量 和 细节 。 也 就 是 先 用 低 分 辨 率 显 示 图 像 ， 然 后 
逐步 提高 它 的 分 辩 率 。 
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4) 透明 性 。 这 个 性 能 可 使 图 像 中 某 些 部 分 不 显示 出 来 ， 用 来 创建 一 些 有 特色 的 图 像 。 

5) 辅助 信息 。 这 个 特性 可 用 来 在 图 像 文件 中 存储 一 些 文本 注释 信息 。 

6) 独立 于 计算 机 软 硬 件 环境 。 

7) 使 用 无 损 数据 压缩 算法 。 

此 外 ，PNG 文件 格式 中 增加 GIF 文件 格式 所 没有 的 下 列 特性 。 

1) 存储 彩色 图 像 时 ， 彩 色 图 像 的 颜色 深度 可 多 到 48bit， 并 且 还 可 存储 多 到 16bit 的 a 通道 
数据 。 

2) 存储 灰 度 图 像 时 ， 灰 度 图 像 的 深度 可 多 到 16bit。 

3) 可 为 灰 度 网 像 和 真 彩色 图 像 提 供 a 通道， 以 控制 图 像 的 透明 度 。 

4) 使 用 循环 元 余 码 (CRC) 检测 破损 的 文件 。 

5) 更 优化 的 渐进 显示 方式 。 

6) 支持 y 校正 机 制 。 

7) 标准 的 读 / 写 工具 包 。 

3. PCX 文件 格式 

PCX 是 由 Zsoft 公司 在 20 世纪 80 年 代 初 期 为 其 图 像 处 理 软件 Paint Brush (画笔 ) 配套 推出 
的 一 种 图 像 文 件 格 式 ， 文 件 扩展 名 为 . pcx。 在 Windows 尚未 普及 时 ，DOS 下 的 绘图 、 排 版 软件 
都 用 PCX 文件 格式 。 后 来 ，Microsoft 将 PC Paint Brush 移植 到 Windows 环境 中 ， 成 为 Windows 系 
统 中 一 个 子 功 能 。 随 着 Windows 的 流行 、 升 级 ， 加 之 其 强大 的 图 像 处 理 能 力 ， 使 PCX 同 GIF、 
TIFF 、BMP 图 像 文件 格式 一 起 ， 被 越 来 越 多 的 图 形 图 像 处 理 软件 工具 所 支持 ， 也 越 来 越 得 到 人 
们 的 重视 。 

早期 的 PCX 图 像 文件 的 颜色 深度 可 选 为 1/4/8bit， 分 别 为 二 色 、 不 超过 16 种 颜色 和 具有 256 
种 颜色 的 PCX 图 像 文 件 。PCX 的 最 新 版 本 支持 24bit 真 彩色 (256 色 的 调 色 板 或 全 24 位 RGB ) 。 
PCX 文件 采用 RLE (Run Length Encoding， 游 程 编码 ) 压缩 编码 ， 文 件 体 中 存放 的 是 压缩 后 的 图 
像 数 据 。 因 此 ， 将 采集 到 的 图 像 数 据 写 成 PCX 文件 格式 时 ， 要 对 其 进行 RLE 编码 ; 而 读 取 一 个 
PCX 文件 时 首先 要 对 其 进行 RLE 解码 ， 才 能 进一步 显示 和 处 理 。 

4. SVG 文件 格式 

SVG (Scalable Vector Graphics， 可 缩放 的 矢量 图 形 ) 是 基于 XML (eXtensible Markup Lan- 
guage， 可 扩展 标记 语言 ) 、 用 于 描述 二 维 矢量 图 形 的 一 种 图 形 格式 。SVG 由 W3C ( World Wide 
Web Consortium) 联盟 制定 。 严 格 来 说 ， 应 该 是 一 种 开放 标准 的 矢量 图 形 语言 ， 它 严格 遵从 XML 
语法 ， 并 用 文本 格式 的 描述 性 语言 来 描述 图 像 内 容 ， 因 此 是 一 种 和 网 像 分 辩 率 无 关 的 矢量 图 形 
格式 ， 可 以 设计 高 分 辩 率 的 Web 图 形 页 面 。 用 户 可 以 直接 用 代码 来 描绘 图 像 ， 可 以 用 任何 文字 
处 理工 具 打 开 SVG 岁 像 ， 通 过 改变 部 分 代码 来 使 图 像 具 有 交互 功能 ， 并 可 以 随时 插入 HTML 
(Hyper Text Markup Language， 超 文本 标记 语言 ) 中 通过 浏览 器 来 观看 。 作 为 SVG 技术 的 一 个 应 
用 ，SVG 在 手机 等 无 线 手 持 设备 上 的 应 用 将 是 高 数据 业务 时 代 最 重要 的 应 用 之 一 。 支 持 SVG 的 
手机 ， 人 允许 用 户 查看 高 质量 的 矢量 图 形 及 动画 。 

SVG 文件 格式 具有 下 列 特 点 。 

(1) 基于 XML 

SVG 并 非 仅仅 是 一 种 图 像 格 式 ， 由 于 它 是 一 种 基于 XML 的 语言 ， 也 就 意味 着 它 继 承 了 XML 
的 跨 平台 性 和 可 扩展 性 ， 从 而 在 图 形 可 重用 性 上 天 出 了 一 大 步 。 如 SVG 可 以 内 艇 于 其 他 的 XML 
文档 中 ， 而 SVG 文档 中 也 可 以 内 入 其 他 的 XML 内 容 ， 各 个 不 同 的 SVG 图 形 可 以 方便 地 组 合 ， 构 
成 新 的 SVG 图 形 。 
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四 ) 数字 图 像 与 视频 处 理 


(2) 采用 文本 来 描述 对 象 

SVG 包括 3 种 类 型 的 对 象 : 矢量 图 形 〈 包 括 直线 、 曲 线 在 内 的 图 形 边 ) 、 点 阵 图 像 和 文本 。 
各 种 图 像 对 象 能 够 组 合 、 变 换 ， 并 且 修 改 其 样式 ， 也 能 够 定义 成 预 处 理 对 象 。 

与 传统 的 图 像 格 式 不 同 ，SVG 采用 文本 来 描述 矢量 化 的 图 形 ， 这 使 得 SVG 图 像 文件 可 以 像 
HTML 网 页 一 样 有 着 很 好 的 可 读 性 。 当 用 户 用 图 像 工 具 输 出 SVG 后 ， 可 以 用 任何 文字 处 理工 具 
打开 SVG 图 像 ， 并 可 看 到 用 来 描述 图 像 的 文本 代码 。 掌 握 了 SVG 语法 的 人 甚至 只 用 一 个 记事 本 
便 可 以 读 出 图 像 中 的 内 容 。 

SVG 文件 中 的 文字 虽然 在 显示 时 可 呈现 出 各 种 图 像 化 的 修饰 效果 ， 但 却 仍然 是 以 文本 的 形 
式 存在 的 ， 可 以 选择 复制 、 粘 贴 。 由 于 SVG 内 的 文字 都 以 文本 的 形式 出 现在 XML 文件 中 , 这 些 
信息 可 以 为 搜索 引擎 所 用 ， 而 以 往 搜 索引 擎 通常 无 法 搜索 到 写 在 点 阵 图 像 中 的 文字 。SVG 图 形 
格式 可 以 方便 地 建立 文字 索引 ， 从 而 实现 基于 内 容 的 图 像 搜索 。 另 外 ， 这 些 文本 信息 还 可 以 帮助 
视力 有 残疾 而 无 法 看 到 网 形 的 人 ， 通 过 其 他 方式 ( 如 声音 ) 来 传送 这 些 信息 。 

(3) 具有 交互 性 和 动态 性 

由 于 网 络 是 动态 的 媒体 ，SVG 要 成 为 网 络 图 像 格式 ， 必 须要 具有 动态 的 特征 ， 这 也 是 区 
别 于 其 他 图 像 格 式 的 一 个 重要 特征 。SVG 图 形 格 式 可 以 用 来 动态 生成 图 形 。 例 如 ,可 用 SVG 
动态 生成 具有 交互 功能 的 地 图 ， 骨 入 网 页 中 ， 并 显示 给 终端 用 户 。 用 户 也 可 以 在 SVG 文件 中 
能 入 动画 元 素 (如 运动 路 径 、 渐 现 或 渐 隐 效果 、 生 长 的 物体 、 收 缩 、 快 速 旋转 、 改 变 颜 色 
等 ) ， 或 通过 脚本 定义 来 达到 高 亮 显 示 、 特 效 、 动 画 等 效果 。SVG 图 形 格式 支持 多 种 滤 镜 和 特 
殊 效 果 ， 在 不 改变 图 像 内 容 的 前 提 下 可 以 实现 位 图 格式 中 类 似 文字 阴影 的 效果 。 

(4) 完全 支持 DOM 

DOM (Document Object Model， 文 档 对 象 模型 ) 是 一 种 文档 平台 ， 它 允许 程序 或 脚本 动态 地 
存储 和 上 传 文件 的 内 容 、 结 构 或 样式 。 由 于 SVG 完全 支持 DOM， 因 而 SVG 文档 可 以 通过 一 致 的 
接口 规范 与 外 界 的 程序 打交道 。SVG 以 及 SVG 中 的 对 象 元 素 完全 可 以 通过 脚本 语言 接受 外 部 事 
件 的 驱动 ， 例 如 鼠标 动作 ， 实 现 自身 或 对 其 他 对 象 、 图 像 的 控制 等 。 这 也 是 电子 文档 应 具备 的 优 
秀 特性 之 一 。 

SVG 是 一 种 矢量 图 形 格 式 ，GIF 、JPEG 是 位 图 图 像 格 式 。 所 以 ， 与 GE 、JPEG 图 像 文 件 格 
式 相 比 ，SVG 具有 以 下 的 优势 。 

1) 用 户 可 以 任意 缩放 图 像 显 示 ， 而 不 会 破坏 图 像 的 清晰 度 、 细 节 等 。 

2) SVG 图 像 中 的 文字 独立 于 图 像 ， 文 字 保 留 可 编辑 和 可 搜寻 的 状态 ， 也 不 会 有 字体 的 限 
制 ， 用 户 系统 即使 没有 安装 某 一 字体 ， 也 会 看 到 和 他 们 制作 时 完全 相同 的 画面 。 
3) SVG 文件 比 GIF 和 JPEG 格式 的 文件 要 小 很 多 ， 因 而 下 载 也 很 快 。 

4) SVG 图 像 在 屏幕 上 总 是 边缘 清晰 ， 它 的 清晰 度 适合 任何 屏幕 分 辨 力 和 打印 分 辨 力 。 


7.3 ”常见 的 动画 文件 格式 













































































































































































































































































动画 文件 指 由 相互 关联 的 若干 帧 静止 图 像 所 组 成 的 图 像 序 列 ， 这 些 静 止 图 像 连 续 播 放 便 形 
成 一 组 动画 ， 通 常用 来 完成 简单 的 动态 过 程 演 示 。 除 了 前 面 介 绍 的 GIF 文件 格式 以 外 ， 常 见 的 动 
画 文件 格式 还 有 FLIAFLC 格式 、SWF 格式 。 






































7.3.1 FLI/FLC 文件 格式 


FLIAFLC 是 Autodesk 公司 在 其 出 品 的 Autodesk Animator/Animator Pro/3D Studio 等 2D/3D 动 
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医 和 视频 文件 想 式 (©) 








画 制作 软件 中 采用 的 彩色 动画 文件 格式 。 其 中 ，FLI 是 最 初 的 基于 320 x 200 分 辨 率 的 动画 文件 
格式 ， 其 文件 扩展 名 是 但。FLC 则 是 FLI 的 扩展 ， 其 文件 扩展 名 是 .fle， 采 用 了 更 高 效 的 数据 压 
缩 技 术 ， 其 分 辩 率 也 不 再 局 限于 320 x200。FLIC 是 FLC 和 TI 的 统称 。FLIC 文件 采用 RLE 压缩 





算法 和 Delta 算法 进行 无 损 的 数据 压缩 ， 首 先 压 缩 并 保存 整个 动画 序列 中 的 第 一 幅 图 











像 ， 然 后 逐 


帧 计算 前 后 两 幅 相 邻 图 像 的 差异 或 变化 部 分 ， 并 对 这 部 分 数据 进行 RLE 压缩 。 由 于 动画 序列 中 
前 后 相 邻 图 像 的 差别 通常 不 大 ， 因 此 采用 行程 编码 可 以 得 到 较 高 的 数据 压缩 率 。 
FLIC 文件 可 分 为 3 个 层次 : 文件 层 、 帧 层 和 块 屋 。 文 件 层 描述 FLIC 文件 的 基本 特征 ; 帧 层 
































定义 了 帧 的 缓冲 和 块 的 数目 ; 块 层 包括 了 块 的 大 小 、 























类 型 和 实际 数据 。 这 样 的 层次 结构 很 容易 实 








现 ， 特 别 是 可 以 增加 块 的 类 型 以 满足 新 的 需要 ， 同 时 无 须 涉 及 原 定义 。 各 层 的 头 结构 按照 下 面 的 





描述 进行 定义 。 

1. 文件 头 结构 

文件 头 的 结构 定义 如 下 。 
/ * {li file header struct */ 
typedef struct | 














unsigned longfli - size; 


unsigned int magic; 


unsigned int frames - number; 
unsigned int screen — width ; 
unsigned int screen — height; 
unsigned intunused ; 

unsigned int flags ; 

unsigned int speed ; 

unsigned long next; 


unsigned long frit; 


unsigned charfli ~ expand| 102 ] ; 


| FILEHEAD ; 
2. 帧 头 结构 
帧 头 结构 定义 如 下 。 
/* frames header struct */ 
typedef struct | 
unsigned long size - frame; 
unsigned int magic; 
unsigned int chunks; 


unsigned char expand[ 8] ; 
| FRAMEHEAD ; 
3. 块头 结构 
块头 结构 定义 如 下 。 
/* chunk header struct */ 
typedef struct | 
unsigned long size - chunk; 


unsigned type - chunk ; 


上 CHUNKHEAD ; 


7.3.2 SWF 文件 格式 





/* 00H: 文 件 总 长 度 */ 











/* 04 昌 ;文件 格式 ,FLC = AF12; FLI= AF11; */ 


/* 06H:FLIC 的 帧 数 x*/ 
/* 08H: 屏 幕 宽度 */ 
/* 0AH: 屏 幕 高 度 */ 
/* 0CH: 保 留 未 用 */ 
/* 0EH: 标 志 =0003 */ 
/* 10H: 帧 间 播 放 速度 单位 */ 
/* 12H: 置 为 0 */ 
/#* 16H: 置 为 0 * 7 
/* 1AH: 保 留 作 扩展 用 =0 */ 
































/* 00H: 帧 大 小 ,包括 本 帧 头 */ 
/* 04H: 帧 标识 字 =0F1FAH */ 
/* 06H: 本 帧 块 数 x*/ 

/* 08H: 保 留 未 用 =0 */ 


/* 00H: 块 大 小 */ 
/* 04H: 块 类 型 */ 


SWF (Shock Wave Flash) 是 Macromedia ( 现 已 被 Adobe 公司 收购 ) 公司 的 动画 设计 软件 


Flash 的 专用 格式 ， 是 一 种 支持 矢量 和 点 阵 图 形 的 动画 文件 格式 ， 被 广泛 应 用 于 网 页 设计 、 动 画 
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为 








像 己 视频 处 理 














制作 等 领域 。SWF 文件 通常 也 被 称 为 Flash 文件 ， 其 文件 扩展 名 为 . swf。SWF 文件 可 以 用 Adobe 
Flash Player 打开 ， 浏 览 器 必须 安装 有 Adobe Flash Player 插件 ， 才 可 以 在 网 页 中 打开 SWF 文件 。 

SWF 文件 是 一 种 MIME (Multipurpose Internet Mail Extension， 多 用 途 Internet 邮件 扩展 协议 ) 
类 型 的 应 用 程序 。SWF 文件 格式 经 历 了 若干 个 版 本 。 在 版 本 5 中 ，SWF 的 标签 设置 经 过 了 一 次 
较 大 规模 的 充实 和 完善 。 从 版 本 6 之 后 ,文件 格式 变化 就 不 大 了 。SWF 文件 由 文件 头 和 文件 体 
组 成 ， 其 中 文件 体 又 由 许多 的 标签 Tag) 组成， 下 面 介绍 SWF 文件 的 结构 。 

1. SWF 文件 头 的 组 成 

SWF 文件 头 如 表 7-6 所 示 。 











表 7-6 SWEF 文件 头 

















































































































字 段 长 度 说 明 
头 标识 符 1 字 节 标识 符 “F” 表示 未 压缩 格式 ,“C” 表示 压缩 格式 (版 本 6 或 后 续 版 本 ) 
头 标识 符 1 字 节 此 标识 符 通 常 为 “W”, 无 特殊 意义 
头 标 识 符 1 字 节 此 标识 符 通常 为 “S”, 无 特殊 意义 
版 本 1 字 节 版 本 号 ， 表 示 对 应 播放 器 版 本 (例如 ，0x06 表示 版 本 6 ) 
文件 长 度 让 整个 文件 的 字 节 长 度 。 如 果 是 一 个 未 压缩 的 SWF 文件 ， 文 件 长 度 字段 表示 文件 的 实 
~ 际 长 度 ; 如 果 是 一 个 经 过 压缩 的 SWF 文件 ， 文 件 长 度 字段 表示 文件 经 解压 后 的 总 长 度 
a 定义 影片 的 宽度 和 高 度 ， 它 使 用 了 RECT 结构 进行 存储 ， 影 片 大 小 可 以 根据 坐标 
帧 尺寸 2 字 节 的 es 
(4 个 点 的 坐标 ) 数值 的 变化 而 变化 
帧 频 2 字 节 表示 理想 的 每 秒 播放 帧 数 。 默 认为 12 ， 高 位 在 前 
帧 数 2 字 节 影片 的 总 帧 数 























文件 头 是 由 一 个 3 字 节 的 标识 符 开始 ， 为 0x46、0x57、0x53 ， 即 字符 串 “FWS”， 或 者 0x43 、 
0x57、0x53 ， 即 字符 串 “CWS”。“FWS” 标 识 符 说 明 该 文件 是 未 压缩 的 SWF 文件 “CWS” 标 
识 符 则 说 明 该 文件 是 压缩 的 SWF 文件 。 压 缩 的 SWF 文件 仅 适 用 于 版 本 6 或 者 更 高 。 

2. SWF 文件 体 的 组 成 

SWF 文件 体 是 由 一 系列 连续 的 标签 (Tag) 数据 块 组 成 ， 所 有 的 标签 都 共享 一 种 通用 格式 ， 
因此 任何 解析 SWF 文件 的 程序 都 能 跳 过 它 不 能 识别 的 数据 块 。 块 内 数据 能 指向 当前 数据 块 内 的 
偏 移 量 ， 但 不 能 指向 其 他 数据 块 内 的 偏 移 量 。 这 就 使 得 标签 能 够 被 处 理 SWF 文件 的 工具 进行 移 
除 、 插 入 或 修改 操作 。 

每 个 标签 都 是 由 一 个 类 型 和 一 个 长 度 值 开 始 的 ， 有 两 种 标签 头 部 格式 : 短 格式 和 长 格式 。 短 
标签 头 部 用 于 62 字 节 或 者 更 小 的 标签 数据 ， 长 标签 头 部 能 够 用 于 任何 大 小 不 超过 4GB 的 标签 数 
据 ， 从 长 远 来 看 这 将 会 是 非常 实用 的 。 

短 标签 的 头 部 包括 10bit 的 标签 编码 和 6bit 的 标签 长 度 。 其 中 ， 标 签 长 度 不 包含 标签 开始 处 
的 记录 头 部 ， 即 该 字段 所 占 的 长 度 。 如 果 标 签 的 长 度 大 于 或 者 等 于 63 字 节 ， 那 么 它 会 被 存储 在 
长 标签 头 部 。 长 标签 头 部 由 一 个 标识 长 度 为 63 字 节 (0x3F) 的 短 标签 头 部 和 一 个 32 位 的 标签 长 
度 组 成 。 

SWF 中 的 标签 分 描述 标签 和 控制 标签 两 种 。 

(1) 描述 标签 ”描述 了 SWF 影片 的 内 容 ， 包 括 形状 、 文 本 、 图 像 、 声 音 等 。 每 个 定义 标签 
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芒 和 视频 文人 格式 S) 


都 为 其 描述 的 内 容 指定 了 一 个 被 称 为 “角色 ID” 的 唯一 ID。Flash 播放 器 把 这 些 角色 存放 在 一 种 
叫 “ 字 典 ” 的 库 里 。 摘 述 标签 本 身 不 能 驱动 某 个 事件 的 产生 。 

(2) 控制 标签 ”可 以 创建 和 驱动 字典 中 角色 的 实例 ， 控 制 影片 的 播放 。 

通常 ，SWF 文件 中 的 标签 可 以 任意 出 现 。 但 尽管 如 此 ， 也 必须 遵循 以 下 规则 。 

1) 一 个 标签 只 能 依赖 前 面 定 义 过 的 标签 ， 而 不 能 依赖 后 面 定 义 的 标签 。 

2) 描述 标签 必须 在 使 用 它 的 任何 控制 标签 之 前 定义 。 

3) 流 式 声音 标签 必须 以 顺序 方式 存储 。 不 规范 的 流 式 声音 标签 将 会 导致 声音 播放 不 正常 。 

4) 结束 标签 一 般 是 SWF 文件 的 最 后 一 个 标签 。 

字典 是 存放 已 经 定义 好 的 角色 的 库 ， 它 可 以 被 控制 标签 所 应 用 。 字 典 的 建立 和 使 用 应 遵循 
以 下 规则 。 

1) 描述 标签 定义 了 诸如 形状 、 字 体 、 位 图 或 者 声音 。 

2) 每 一 个 描述 标签 都 被 指定 一 个 唯一 的 角色 ID。 

3) 字典 中 的 内 容 被 存储 在 角色 ID 之 后 。 

4) 控制 标签 能 够 通过 角色 ID 在 字典 中 找到 所 需 内 容 并 对 其 执行 某 种 操作 ， 例 如 显示 形状 
或 者 播放 声音 。 

每 个 角色 了 D 必须 指定 一 个 唯一 的 DD， 不 允许 重复 ID。 例 如 ， 第 一 个 角色 了 如是 1, 第 二 个 角 
色 ID 是 2。 角 色 0 被 指定 为 表示 空 角 色 的 专用 ID。 
并 不 是 只 有 控制 标签 才能 引用 字典 。 描 述 标签 同样 也 可 以 使 用 字典 中 的 数据 进行 更 复杂 的 
角色 定义 。 例 如 ， 按 钮 和 剪辑 标签 都 使 用 到 了 定义 它们 内 容 的 角色 。 文 本 标签 也 包含 了 字体 角色 
以 便于 为 文本 选择 不 同 的 字体 。 

SWF 是 Adobe Flash Player 可 以 执行 的 唯一 文件 格式 。 其 他 任何 文件 格式 如 JPEG、GIF、MP3 
等 ， 都 必须 内 骨 于 SWF 文件 ， 或 通过 其 加 载 。 

SWF 格式 的 文件 能 够 用 比较 小 的 体积 来 表现 丰富 的 多 媒体 形式 。 在 图 像 的 传输 方面 ， 不 必 
等 到 文件 全 部 下 载 才 能 观看 ， 而 是 可 以 边 下 载 边 看 ， 因 此 特别 适合 网 络 传输 ， 特 别 是 在 传输 速率 
不 高 的 情况 下 ， 也 能 取得 较 好 的 效果 。 事 实 也 证 明了 这 一 点 ，SWF 如 今 已 被 大 量 应 用 于 Web 网 
页 中 进行 多 媒体 演示 与 交互 性 设计 。 此 外 ，SWF 动画 是 基于 矢量 技术 制作 的 ， 不管 将 画面 放大 
多 少 倍 ， 画 面 不 会 因此 而 有 任何 损害 。 


7.4 数字 视频 文件 格式 
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7.4.1 AVI 文件 格式 


音频 视频 交错 (Audio Video Interleaved，AVI) 是 Microsoft 公司 开发 的 一 种 符合 RIFF 文件 规 
范 的 数字 音频 与 视频 文件 格式 ， 常 用 的 扩展 名 为 . avi， 最 早 用 于 Microsoft Video for Windows 环境 ， 
现在 已 被 Windows 95/98 、0S/2 等 多 数 操作 系统 直接 支持 。AVI 文件 格式 允许 视频 和 音频 交错 在 
一 起 进行 同步 播放 ， 支 持 256 色 和 RLE 压缩 。 通 常情 况 下 ， 一 个 AVI 文件 可 以 包含 多 个 不 同类 
型 的 媒体 流 (典型 的 情况 下 有 一 个 音频 流 和 一 个 视频 流 )， 不 过 含有 单一 音频 流 或 单一 视频 流 的 
AVI 文件 也 是 合法 的 。 

AVI 文件 格式 的 优点 是 解码 后 的 重建 图 像 质量 好 ， 可 以 跨 多 个 平台 使 用 。 但 其 缺点 是 压缩 效 
率 不 高 ， 文 件 所 占 存储 空间 大 ， 而 且 使 用 的 压缩 算法 不 统一 ， 因 此 经 常会 遇 到 高 版 本 Windows 媒 
体 播 放 器 播放 不 了 采用 早期 编码 编辑 的 AVI 格式 视频 ， 而 低 版 本 Windows 媒体 播放 器 又 播放 不 
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为 








Os= 


了 采用 最 新 编码 编辑 的 AVI 格式 视频 。 所 以 我 
们 在 进行 一 些 AVI 格式 的 视频 播放 时 ， 常 会 出 
现 由 于 视频 编码 问题 而 造成 的 视频 不 能 播放 ， 








像 与 视频 处 理 














此 RIFFspot ¥1.0 





打开 浆 件 :|C: WINDOWS%el ock, asi 





























或 即使 能 够 播放 但 存在 不 能 调节 播放 进度 和 播 的 _ iaw | 
放 时 只 有 声音 没有 图 像 等 一 些 莫 名 其 妙 的 问 
题 。 因 此 ，AVI 文件 格式 只 是 作为 控制 界面 上 | Se 
的 标准 ， 不 具有 兼容 性 ， 用 不 同 压缩 算法 生成 Do 
的 AVI 文件 ， 必 须 使 用 相应 的 解压 缩 算法 才能 ee 
播放 出 来 。AVI 文件 目前 主要 应 用 在 多 媒体 光 estroa 
盘 上 ， 用 来 保存 电影 、 电 视 等 各 种 影像 信息 ， | 
有 时 也 出 现在 Intemet 上 ， 供 用 户 下 载 、 欣 党 ooab [Solrtes] 
新 影片 的 精彩 片断 。 | 
下 面 我 们 以 图 7-2 所 示 的 clock. avi 的 文件 [i] 
结构 为 例 来 说 明 AVI 文件 的 结构 。 图 7-2 的 文 | 
件 结构 图 是 用 RIFFspot 程序 解析 得 到 的 。 | 
AVI 文件 的 格式 中 ,文件 类 型 用 一 个 四 字 有 
符 码 'AVI' 来 表示 。AVI 文件 的 结构 包括 一 个 
RIFF 头 、 两 个 LIST (一 个 用 于 描述 媒体 流 格 








式 、 一 个 用 于 保存 媒体 流 数据 )、 一 个 JUNK 











块 和 一 个 可 选 的 索引 块 ， 具 体 结构 如 下 。 图 7-2 ”clock. avi 文件 结构 
RIFF (' AVI 
LIST ( 'hdrl' 
'avih' /* 主 AVI 信 息 头 数据 */ 
LIST ('strl' 





'strh' /* 流 的 头 信息 数据 * / 

'stf '，  ”/* 流 的 格式 信息 数据 */ 

[ "strd' /* 可 选 的 额外 的 头 信息 数据 * 7/ ] 
[ 'strm' /* 可 选 的 流 的 名 字 *7/ ] 





) 
LIST ( "movi' 
{SubChunk | LIST ( 'rec ' 
SubChunkl 
SubChunk2 
) 
| 
) 
[idxl， /* 可 选 的 AVI 索引 块 数据 */ ] 


) 
首先 ，RIFF ('AVI'…) 表征 了 AVI 文 件 类 型 。 然 后 就 是 AVI 文件 必需 的 第 一 个 列表 : 
'hdrl' 列 表 ， 用 于 描述 AVI 文件 中 各 个 流 的 格式 信息 (AVI 文件 中 的 每 一 路 媒体 数据 都 称 
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为 
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为 一 个 流 )。'hdr' 列 表 藤 套 了 一 系列 块 和 子 列表 : 首先 是 














个 'avih' 块 ， 用 于 存储 主 AVI 信息 


头 数据 ; 然后 是 一 个 或 多 个 'stl ' 子 列表 (文件 中 有 和 多少 个 流 ， 这 里 就 对 应 有 和 多少 个 'stl' 子 列 





CR ， 例 如 ，clock. avi 文件 有 两 路 流 ， 即 音频 流 和 视频 流 ) 。 


'avih ' 块 用 于 记录 AVI 文件 的 全 局 信息 ， 比 如 流 的 数量 、 


用 下 面 的 AVIMAINHEADER 数据 结构 来 操作 。 
typedef struct _avimainheader | 


FOURCC fcc;。/ 必须 为 'avih' 





视频 图 像 的 宽度 和 高 度 等 ， 可 以 使 


DWORD ceb; / 本 数据 结构 的 大 小 ,不 包括 最 初 的 8 个 字 节 (fce 和 cb 两 个 域 ) 
DWORD dwMicroSecPerFrame; / 视频 帧 间隔 时 间 ( 以 毫秒 为 单位 ) 
DWORD dwMaxBytesPerSec; / 这 个 AVI 文件 的 最 大 数据 率 





DWORD dwPaddingGranularity; / 数据 填充 的 粒度 


DWORD dwFlags; /AVI 文件 的 全 局 标记 ,比如 是 否 含有 索引 块 等 


DWORD dwTotalFrames;  / 总 帧 数 


DWORD dwlnitialFrames; // 为 交互 格式 指定 初始 帧 数 ( 非 交 互 格式 应 该 指定 为 0) 


DWORD dwStreams; // 本 文件 包含 的 流 的 个 数 


DWORD dwSuggestedBufferSize; // 建议 读 取 本 文件 的 缓存 大 小 (应 能 容纳 最 大 的 块 ) 





DWORD dwWidth; / 视频 图 像 的 宽 ( 以 像素 为 单位 ) 
DWORD dwHeight; / 视频 图 像 的 高 ( 以 像素 为 单位 ) 





DWORD dwReserved[4]; V 保留 
| AVIMAINHEADER; 











每 个 'strl' 子 列表 至 少 包含 一 个 'strh ' 块 (用 于 说 明 这 个 流 的 头 信 息 ) 和 一 个 'stf' 块 〈 用 于 
说 明 流 的 具体 格式 ， 是 视频 流 或 是 音频 流 )， 而 'strd ' 块 (用 于 保存 编 解码 器 需要 的 一 些 配 置信 








息 ) 和 'stm' 块 (用 于 保存 流 的 名 字 ) 是 可 选 的 。 








'strh ' 块 可 以 使 用 下 面 的 AVISTREAMHEADER 数据 结构 来 操作 。 


typedef struct _avistreamheader | 


FOURCC fcc;，/ 必须 为 'strh' 


DWORD cb; ”/ 本 数据 结构 的 大 小 ,不 包括 最 初 的 8 字 节 (fce 和 cb 两 个 字段 ) 
FOURCC fccType; / 流 的 类 型 : 'auds' (音频 流 )、'vids' (视频 流 ) 、 
A/ "mids' (MIDI 流 )、'txts' (文本 流 ) 
FOURCC fccHandler; // 指定 流 的 处 理 者 ,对 于 音 视频 来 说 就 是 解码 器 
DWORD dwFlags; / 标记 :是 否 允 许 这 个 流 输出 ? 调 色 板 是 否 变 化 ? 














WORD ”wPriority; ”/ 流 的 优先 级 ( 当 有 多 个 相同 类 型 的 流 时 优先 级 最 高 的 为 默认 流 ) 


WORD vwLanguage; 

DWORD dwlInitialFrames; // 为 交互 格式 指定 初始 帧 数 
DWORD dwScale; /这 个 流 使 用 的 时 间 尺 度 
DWORD dwRate; 

DWORD dwStart; ”// 流 的 开始 时 间 





DWORD dwLength;”/ 流 的 长 度 (单位 与 dwScale 和 dwRate 的 定义 有 关 ) 
DWORD dwSuggestedBufferSize; // 读 取 这 个 流 数据 建议 使 用 的 缓存 大 小 
DWORD dwQuality; 。 ”/ 流 数 据 的 质量 指标 (0 ~ 10000) 





DWORD dwSampleSize; ) Sample 的 大 小 
struct | 

short int left; 

short int top; 

short int right; 

short int bottom ; 








! 








| rcFrame; ”// 指定 这 个 流 ( 视 频 流 或 文字 流 ) 在 视频 主 窗口 中 的 显示 位 置 





/ 视频 主 窗口 由 AVIMAINHEADER 结构 中 的 dwWidth 和 dwHeight 决定 


| AVISTREAMHEADER ; 
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为 
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l= 


'stf' 块 用 于 说 明 流 的 具体 格式 。 如 果 是 视频 流 ， 则 使 用 一 个 BITMAPINFO 数据 结构 来 描述 ; 

如 果 是 音频 流 ， 则 使 用 一 个 WAVEFORMATEX 数据 结构 来 描述 。 
当 AVI 文件 中 的 所 有 流 都 使 用 一 个 'strl' 子 列表 说 明了 以 后 (需要 注意 的 是 ，'stzl' 子 列表 出 
现 的 顺序 与 媒体 流 的 编号 是 对 应 的 ， 比 如 第 一 个 'strl' 子 列表 说 明 的 是 第 一 个 流 (Stream 0) ， 第 
二 个 'strl' 子 列表 说 明 的 是 第 二 个 流 (Stream 1) ， 以 此 类 推 ) ，'hdr 列表 的 任务 也 就 完成 了 。 随 
后 跟着 的 就 是 AVI 文件 必需 的 第 二 个 列表 'movi' 列 表 ， 用 于 保存 真正 的 媒体 流 数据 (视频 
图 像 帧 数据 或 音频 采样 数据 等 ) 。 

'movi' 列 表 的 数据 组 织 方式 有 两 种 。 可 以 将 数据 块 直接 般 在 'movi' 列 表 里 面 ， 也 可 以 将 几 个 
数据 块 分 组 成 一 个 'rec' 列 表 后 再 编排 进 'movi' 列表。 需要 注意 的 是 ， 在 读 取 AVI 文件 内 容 时 ， 
建议 将 一 个 'rec' 列 表 中 的 所 有 数据 块 一 次 性 读 出 。 但 是 ， 当 AVI 文件 中 包含 有 多 个 流 的 时 候 ， 
数据 块 与 数据 块 之 间 如 何 来 区 别 呢 ? 数据 块 使 用 了 一 个 四 字符 码 来 表征 它 的 类 型 ， 这 个 四 字符 
码 由 2 字 节 的 类 型 码 和 2 字 节 的 流 编号 组 成 。 标 准 的 类 型 码 定义 如 下 : 'db' ( 非 压 缩 视频 帧 ) 、 
"dc' (压缩 视频 帧 )、'pc' ( 改 用 新 的 调 色 板 ) 、'wb ' (音频 )。 比 如 第 一 个 流 (Stream 0) 是 
音频 ， 则 表征 音频 数据 块 的 四 字符 码 为 '00wb '; 第 二 个 流 (Stream 1) 是 视频 ， 则 表征 视频 数 
据 块 的 四 字符 码 为 '00db ' 或 '00de '。 对 于 视频 数据 来 说 ,在 AVI 数据 序列 中 间 还 可 以 定义 一 
个 新 的 调 色 板 ， 每 个 改变 的 调 色 板 数据 块 用 'xxpe ' 来 表征 ， 新 的 调 色 板 使 用 一 个 数据 结构 AVI- 
PALCHANGE 来 定义 。( 需 要 注意 的 是 ， 如 果 一 个 流 的 调 色 板 中 途 可 能 改变 ， 则 应 在 这 个 流 格 式 
的 描述 中 ， 也 就 是 AVISTREAMHEADER 结构 的 dwFlags 中 包含 一 个 AVISF_VIDEO_PALCHANGES 
标记 ) 。 另 外 ,文字 流 数据 块 可 以 使 用 随意 的 类 型 码 表征 。 

最 后 ， 紧 跟 在 'hdzd ' 列 表 和 "movi' 列 表 之 后 的 ， 就 是 AVI 文件 可 选 的 索引 块 。 这 个 索引 块 为 
AVI 文件 中 每 一 个 媒体 数据 块 进 行 索 引 ， 并 且 记 录 它 们 在 文件 中 的 偏 移 (可 能 相对 于 'movi' 列 
表 ， 也 可 能 相对 于 AVI 文件 开头 ) 。 
索引 块 使 用 一 个 四 字符 码 'idxl' 来 表征 ,索引 信息 使 用 一 个 数据 结构 来 AVIOLDINDEX 
定义 。 

typedef struct _avioldindex | 
FOURCC fcc;  V 必须 为 'idxl， 
DWORD cb;”/ 本 数据 结构 的 大 小 ,不 包括 最 初 的 8 字 节 (fcc 和 cb 两 个 字段 ) 
struct _avioldindex_ent 
DWORD ne // 表征 本 数据 块 的 四 字符 码 
DWORD dwFlags; // 说 明 本 数据 块 是 不 是 关键 帧 .是 不 是 'rec ' 列表 等 信息 
DWORD dwOffset; / 本 数据 块 在 文件 中 的 偏 移 量 
























































































































































































































































DWORD dwSize; / 本 数据 块 的 大 小 
| aIndex[ ] ; // 这 是 一 个 数组 ! 为 每 个 媒体 数据 块 都 定义 一 个 索引 信息 
| AVIOLDINDEX; 








需要 注意 的 是 ， 如 果 一 个 AVI 文件 包含 有 索引 块 ， 则 应 在 主 AVI 信息 头 的 描述 中 ， 也 就 是 
AVIMAINHEADER 结构 的 dwFlags 中 包含 一 个 AVIF_HASINDEX 标记 。 

图 7-2 中 还 有 一 种 特殊 的 数据 块 ， 用 一 个 四 字符 码 'JUNK' 来 表征 ， 它 用 于 内 部 数据 的 对 齐 
(填充 )， 应 用 程序 应 该 忽略 这 些 数据 块 的 实际 意义 。 


7.4.2 MPEG/MPG/DAT/DivVX/XviD 
































MPEG 是 Moving Picture Experts Group (运动 图 像 专 家 组 ) 的 简称 。 目 前 由 MPEG 组 织 制定 的 
视频 压缩 编码 标准 有 MPEG-1、MPEG-2 和 MPEG-4。 

1. MPEG-1 

MPEG-1 (ISOZIEC 1172) 标准 于 1992 年 11 月 通过 ，1993 年 8 月 公布 。 它 是 针对 1.5Mbit/s 
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以 下 数据 传输 率 的 数字 存储 媒体 应 用 的 活动 图 像 及 其 伴音 编码 的 国际 标准 。MPEG-1 主要 应 用 于 
影视 方面 ， 如 VCD、CD-ROM、CD-I 等 。 

这 种 视频 格式 的 文件 扩展 名 包括 . mpg、. mlv、. mpe、. mpeg 及 . dat 等 。 

2. MPEG-2 

MPEG-2 (ISO/IEC 13818) 标准 正式 公布 于 1995。MPEG-2 是 运动 图 像 及 其 伴音 信息 的 通用 
编码 〈Generic coding of moving pictures and associated audio information ) 的 国际 标准 。MPEG-2 主 
要 应 用 于 数字 视频 广播 (Digital Video Broadcasting，DVB) 、DVD 、 标 准 清 晰 度数 字 电 视 (SDTV) 
和 高 清晰 度数 字 电 视 (HDTV ) 。 

这 种 视频 格式 的 文件 扩展 名 包括 . mpg、. mpe、. mpeg、. m2v 及 .vob 等 。 

3. MPEG-4 

继 成 功 制定 MPEG- 1、MPEG-2 之 后 ，MPEG 专家 组 从 1994 年 开始 制定 MPEG-4 标准 。 
MPEG-4 (ISOZIEC 14496) 是 音 视 频 对 象 编码 ( Coding of audio-visual objects) 的 国际 标准 ， 它 将 
众多 的 多 媒体 应 用 集成 于 一 个 完整 的 框架 内 ， 骨 在 为 多 媒体 通信 及 应 用 环境 提供 标准 的 算法 及 
工具 ， 用 于 实现 音 / 视 频数 据 的 有 效 编码 以 及 更 为 灵活 的 存 取 。 

MPEG-4 试图 达到 两 个 目标 : 一 是 数码 率 下 的 多 媒体 通信 ， 二 是 多 种 工业 标准 的 多 媒体 通信 的 
综合 。MPEG-4 视频 格式 大 大 优 于 MPEG-1 与 MPEG-2， 视 频 质量 与 分 辨 率 高 ， 而 数码 率 相对 较 低 。 

MPEG-4 的 应 用 非常 广泛 ， 包括 数字 电视 、 实 时 多 媒体 监控 、 低 数码 率 下 的 移动 多 媒体 通 
信 、Internet/Intranet 上 的 视频 流 与 可 视 游戏 、 基 于 面部 表情 模拟 的 虚拟 会 议 等 。 例 如 ， 可 以 在 家 
用 PC 上 将 DVD 转换 为 MPEG-4 格式 ， 然 后 放 在 硬盘 上 随时 观看 。 

这 种 视频 格式 的 文件 扩展 名 包括 . avi、. mov、. asf、. mp4 等 。 

4. DivX 和 XviD 

1998 年 ，Microsoft 开发 了 第 一 个 应 用 于 PC 平台 的 MPEG-4 编码 器 ， 目 前 已 形成 MS MPEG-4 
Vl1、MS MPEG-4 V2、MS MPEG-4 V3 等 系列 ， 其 中 V1 和 V2 用 于 制作 AVI 文件 ， 至 今 仍 是 Win- 
dows 的 默认 组 件 , 但 V1 和 V2 的 编码 质量 不 是 很 好 。MS MPEG-4 V3 能 够 实现 非常 好 的 编码 质 
量 , 但 Microsoft 为 了 自身 的 利益 不 公开 MS MPEG-4 V3 的 视频 编码 内 核 ， 使 其 仅仅 应 用 于 Win- 
dows Media 技术 平台 。 

Microsoft 的 这 种 行为 引起 了 视频 编码 领域 的 一 些 黑客 和 高 手 的 不 满 ， 由 这 些 人 组 成 的 一 个 
名 为 DivX 的 小 组 破解 了 MS MPEG-4 V3 编码 器 ， 并 将 其 改良 为 另外 一 种 新 的 视频 编码 器 一 一 
DivX 3. 11。DivX 影片 的 视频 部 分 采用 MPEG-4 压缩 ， 音 频 部 分 采用 MP3 压缩 ， 由 于 MP3 和 
MPEG-4 超 强 的 压缩 能 力 ，DivX 可 以 将 一 部 2GB 大 小 的 DVD 影片 压缩 到 一 张 650MB 的 CD-R 
上 ， 并 且 视 频 画 面 质量 和 音质 都 相当 不 错 。 

DivX 3. 11 性 能 相当 出 色 ， 很 快 就 成 为 Intemet 上 广 为 流传 的 MPEG-4 编码 器 ， 甚 至 被 宣扬 为 
一 种 业界 标准 。DivX 的 成 名 让 Microsoft 公司 极为 不 满 ，Microsoft 声称 ，DivX 的 基础 技术 是 非法 
盗用 Microsoft 的 ， 因 此 Microsoft 将 对 所 有 推动 DivX 发 展 的 企业 和 人 进行 追究 。 但 DivX 的 创造 者 
之 一 Rota 却 认 为 ， 虽 然 DivX 是 基于 Windows 开发 出 来 的 ， 但 却 没有 使 用 过 任何 Microsoft 的 技 
术 。Rota 还 组 建 了 一 个 名 为 DivX Networks 的 公司 ， 全 力 推广 DivX 并 致力 于 DivX 的 合法 化 。Di- 
vX 编 解码 器 目前 已 发 展 出 DivX4 、DivX5 、DivX6 、DivX7 等 多 个 版 本 。 

但 是 ， 就 在 DivX Networks 公司 顺利 发 展 、DivX 技术 逐渐 成 熟 的 过 程 中 ，DivX Networks 却 犯 
了 一 个 和 Microsoft 类 似 的 错误 。 本 来 ，DivX Networks 成 立 的 初衷 就 是 为 了 打破 Microsoft 的 技术 
封闭 ， 因 而 发 起 一 个 名 为 Projet Mayo 的 完全 开放 源码 的 项 目 ， 目 标 是 开发 一 套 全 新 的 、 开 放 源 
码 的 MPEG-4 编码 软件 。 由 于 这 个 开放 的 OpenDivX 编 解 码 器 完全 符合 MPEG-4 标准 ， 又 是 完 
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开放 源 代码 ， 因 而 吸引 了 很 多 软件 、 视 频 高 手 参 与 ， 很 快 便 开发 出 具有 更 高 性 能 的 编码 器 En- 
core2 。 就 在 此 时 ，DivX Networks 公司 却 突然 封闭 了 DivX 的 源 代 人 码 ， 并 在 Encore2 的 基础 上 发 布 
了 自 有 产品 DivX4。 原 来 DivX Networks 公司 早 有 预谋 ，DivX 采取 的 是 LGPL 协议 ,而 不 是 GPL 
协议 ， 虽说 它们 都 是 公共 许可 证 协议 ,保障 自由 使 用 和 修改 软件 或 源码 的 权利 ， 但 LGPL 允许 私 
有 ，DivX Networks 公司 就 是 充分 利用 了 “允许 私有 ”这 一 点 ， 先 公开 源 代 码 让 许多 爱好 者 参与 
开发 ， 然 后 将 成 果 合 法 地 据 为 已 有 。 

DivX Networks 公司 的 做 法 很 快 就 遭 到 了 强烈 的 报复 。 所 有 被 DivX Networks 页 了 一 回 的 软件 、 
视频 团体 男 起 门户 ， 在 OpenDivX 版 本 的 基础 上 ， 再 次 开发 出 一 种 新 的 MPEG-4 编码 器 一 一 XviD。 
XviD 的 字母 排列 顺序 和 DivX 刚好 相反 。 

从 技术 上 来 说 ，XviD 已 经 基本 上 与 DivX5 接近 ， 甚 至 有 所 超越 。XviD 可 以 在 保持 DivX5 网 像 
质量 的 基础 上 ， 大 大 提高 压缩 效率 。 此 外 ，XviD 还 汲取 了 前 车 之 鉴 ， 完 全 按照 GPL 发 布 ， 也 就 
是 说 ， 谁 要 是 想 做 成 产品 而 不 开放 源码 是 非法 的 。 


7.5 流 媒体 文件 格式 


流 媒 体系 统 主要 处 理 的 是 实时 性 要 求 高 、 数 据 量 较 大 的 连续 时 基 媒 体 ， 包 括 音频 、 视 频 和 
动画 等 多 媒体 数据 。 这 些 媒体 的 数据 量 很 大 ， 为 便于 在 服务 器 端的 存储 和 网 络 上 的 实时 传输 ， 
通常 需要 经 过 压缩 编码 并 生成 一 定格 式 的 文件 ， 如 我 们 熟知 的 * .mpg、*. avi、*. mp3 等 ， 
尔 这 些 文件 为 压缩 格式 文件 。 而 要 将 这 些 媒体 在 IP 网 上 进行 实时 传输 ， 实 现 边 下 载 边 播放 ， 
并 保证 一 定 的 播放 质量 ， 就 需要 对 压缩 格式 的 文件 进行 必要 的 处理 ,添加 一 些 附 属 信息 ， 如 
计时 、 压 缩 算法 和 版 权 管理 等 信息 ， 这 样 就 形成 了 流 媒体 文件 。 本 节 主 要 介绍 四 大 流 媒体 系 
统 RealSystem、Windows Media、QuickTime 以 及 Adobe Flash 的 流 媒体 文件 格式 。 


7.5.1 Real Media 文件 格式 


Real Networks 公司 在 20 世纪 90 年 代 中 期 首先 推出 了 流 媒 体 技术 ， 作 为 世界 领先 的 网 络 流 式 
音 / 视 频 解 决 方案 的 提供 者 ， 提 供 从 制作 端 、 服务器 端 到 客户 端的 所 有 产品 。 其 推出 的 RealMedia 
是 目前 Internet 上 最 流行 的 跨 平台 的 客户 机 /服务 器 结构 多 媒体 应 用 规范 ， 它 采用 音频 /视频 流 和 
同步 回放 技术 ,实现 了 网 上 的 多 媒体 回放 。 由 于 RealMedia 发 展 的 时 间 比 较 长 ， 因 此 具有 很 多 先 
进 的 技术 ， 例 如 ， 可 伸缩 视频 技术 (Scalable Video Technology) 可 以 根据 用 户 计算 机 处 理 速度 和 
网 络 连接 带宽 而 自动 调整 媒体 的 播放 质量 ; 两 次 编码 技术 (Two- Pass Encoding) 可 通过 对 媒体 内 
容 进 行 预 扫描 ， 再 根据 扫描 的 结果 来 编码 ， 从 而 提高 编码 质量 ; 特别 是 智能 流 (Sure Stream) 技 
术 ， 可 将 不 同 压 缩 率 的 数据 存储 在 一 个 文件 中 ， 当 用 户 发 出 请 求 时 会 将 其 带宽 容量 传送 给 服务 
器 ， 服 务 需 会 根据 此 参数 将 流 文 件 中 的 相应 部 分 传送 给 用 户 ， 从 而 可 通过 一 个 编码 流 提供 自动 
适合 不 同 带宽 用 户 的 流 播放 。 男 外 ，RealMedia 通过 基于 SMIL 并 结合 自己 的 RealPix 和 RealText 
技术 来 达到 一 定 的 交互 能 力 和 媒体 控制 能 力 。 

1，RealMedia 文件 种 类 

RealMedia 规范 中 主要 包括 三 类 文件 ， RealAudio 、RealVideo 和 RealFlash ， 另 外 还 有 RealPix 
和 RealText。 

(1) RealAudio 文件 格式 (RAZRM ) 

RealAudio 文件 格式 是 一 种 流 式 音频 文件 格式 ， 用 以 传输 接近 CD 音质 的 音频 数据 。 现 在 的 
RealAudio 文件 格式 主要 有 RA (RealAudio) 和 RM (RealMedia) 两 种 ， 常 用 的 文件 扩展 名 
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为 . ra/. rm。 它 的 最 大 特点 就 是 可 以 根据 网 络 数据 传输 速率 的 不 同 而 采用 不 同 的 压缩 率 ， 在 
网 络 上 “ 边 下 载 边 播 放 ”( 流 式 播放 )， 播 放 时 随 网 络 带 宽 的 不 同 而 改变 声音 的 质量 ， 即 使 在 网 
络 传输 速率 较 低 的 情况 下 ， 仍 然 可 以 较为 流畅 地 播放 ， 因 此 RealAudio 主要 适用 于 网 络 上 的 在 线 
播放 。 对 于 14. 4kbit/s 的 网 络 连接 ， 可 获得 调幅 (AM) 广播 的 音质 ; 对 于 28. 8kbit/s 的 网 络 连 
接 ， 可 以 获得 FM 广播 的 音质 ; 如 果 拥 有 更 高 速率 的 网 络 连 接 ， 则 可 以 达到 CD 音质 。RealAudio 
文件 需要 使 用 RealPlayer 播放 右 播 放 。 

(2) RealVideo 文件 格式 (RMZRMVB ) 

RealVideo 文件 格式 是 RealNetworks 公司 开发 的 一 种 流 式 视频 文件 格式 ， 主 要 用 来 在 低速 率 
的 广域网 上 实时 传输 活动 视频 影像 。 这 里 值得 一 提 的 是 智能 流 (Sure Stream) 技术 ， 这 种 技术 将 
不 同 压 缩 率 的 数据 存储 在 一 个 文件 中 ,用 户 发 出 请 求 的 同时 会 将 其 带宽 容量 传送 给 服务 器 ， 服 
务 器 会 根据 此 参数 将 流 文件 中 的 相应 部 分 传送 给 用 户 ， 从 而 实现 一 个 文件 适合 不 同 网 络 带 宽 的 
情况 ， 满 足 不 同性 质 的 用 户 请 求 。RealVideo 除了 可 以 以 普通 的 视频 文件 形式 播放 之 外 ， 还 可 以 
与 RealServer 服务 器 相配 合 ， 在 数据 传输 过 程 中 边 下 载 边 播放 视频 影像 。 目 前 ，Internet 上 已 有 不 
少 网 站 利用 RealVideo 技术 进行 重大 事件 的 实况 转播 。 

目前 被 广泛 使 用 的 RealVideo 文件 采用 RMZRMVB 格式 ， 常 用 的 文件 扩展 名 为 . rm/. rmvb。 
早期 的 RM 格式 采用 固定 数码 率 的 压缩 编码 ， 为 了 实现 更 高 的 压缩 比 与 重建 图 像 质量 之 间 的 优 
化 ，Real Networks 公司 在 RM 格式 的 基础 上 ， 推 出 了 采用 可 变数 码 率 编码 的 RMVB 格式 。RMVB 
中 的 VB， 指 的 是 VBR， 即 Variable Bit Rate 的 缩写 ， 中 文 含义 是 可 变 比 特 率 。 在 静态 画面 中 采 
用 较 低 的 数码 率 而 在 动态 画面 中 则 用 较 高 的 数码 率 ， 这 样 在 保证 平均 数码 率 一 定 的 前 提 下 ， 提 
高 了 运动 图 像 的 画面 质量 ， 从 而 在 图 像 质量 和 文件 大 小 之 间 达 到 了 优化 的 平衡 。 另 外 ， 相 对 于 
DVDrip 格式 ，RMVB 视频 也 是 有 着 较 明 显 的 优势 ， 一 部 大 小 为 700MB 左右 的 DVD 影片 ， 如 果 将 
其 转录 成 RMVB 格式 ， 则 生成 的 RMVB 文件 大 小 仅 为 400MB ， 而 画 质 并 没有 太 大 变化 。 不 仅 如 
此 ， 这 种 视频 格式 还 具有 内 置 字幕 和 无 须 外 挂 插件 支持 等 独特 优点 。 要 想 播 放 这 种 视频 格式 ， 可 
以 使 用 RealOne Player 2. 0 或 RealPlayer 8.0 以 上 版 本 的 播放 需 进 行 播放 。 

(3) RealFlash 文件 格式 

RealFlash 是 Real Networks 公司 与 Macromedia 公司 合作 推出 的 高 压缩 比 动画 格式 。 

(4) RealPix 文件 格式 

RealPix 是 RealMeida 文件 格式 的 一 部 分 ， 人 允许 直接 将 图 片 文 件 通过 Intemet 流 式 传 输 到 客户 
端 。 通 过 将 其 他 媒体 (如 音频 、 文 本 ) 捆绑 到 图 片上 可 以 制 做 出 多 种 用 途 的 多 媒体 文件 。 用 户 
只 需要 懂 简 单 的 标志 性 文件 就 可 以 用 文本 编辑 器 制 做 出 *. rp 文件 。RealPix 文件 可 以 用 Re- 
alServer 发 送 到 RealPlayer 直接 播放 ， 但 是 由 于 RealPix 是 新 的 媒 体 标 准 格式 ， 所 以 以 前 的 版 本 
(如 RealPlayer 4.0/5.0) 是 不 能 播放 的 。 

(5) RealText 文件 格式 

RealText 也 是 RealMeida 文件 格式 的 一 部 分 ， 发 布 这 种 格式 是 为 了 让 文本 从 文件 或 者 直播 源 
流 式 发 放 到 客户 端 。RealText 文件 既 可 以 是 单独 的 文本 ， 也 可 以 在 文本 的 基础 上 加 上 媒体 ， 何 种 
形式 完全 由 需要 决定 。 由 于 RealText 文件 也 是 由 标志 性 语言 定义 的 ， 所 以 用 简单 的 文本 编辑 器 就 
可 以 制作 。RealText 文件 也 可 以 用 RealPlayer 流 式 播 放 。 

2. RealMedia 文件 格式 

RealMedia 文件 格式 遵循 RIFF 规范 ， 使 用 四 字符 码 (FOURCC) 来 标识 文件 元 素 。 组 成 
RealMedia 文件 的 基本 组 件 是 块 〈Chunk) ， 它 是 数据 的 逻辑 单位 ， 如 流 的 报头 或 一 个 数据 包 。 每 
个 块 (Chunk) 包括 下 面 3 个 部 分 。 
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e ChunkID: 标识 该 Chunk 名 称 的 四 字符 码 。 


。 ChunkSize: 占用 4 字 节 ， 表 示 ChunkData 部 分 的 数据 块 长 度 ， 以 字 节 为 单位 。 


e。 ChunkData: Chunk 的 具体 数据 内 容 。 





依 类 型 的 不 同 ， 上 层 的 块 (Chunk) 可 以 包 
含 多 个 子 块 。 


2 
RealMedia 文件 格式 如 图 7-3 所 示 。 Properties 





(1 ) 报头 部 分 ( Header Section ) Media Properties 





为 RealMedia 文件 格式 是 一 种 加 标识 的 文件 


Media Properties FF Header Section 





格式 ， 块 的 顺序 没有 明确 规定 ， 但 RealMedia 文件 
报头 必须 是 文件 的 第 一 个 块 。 一 般 情况 下 ，Real- 2 
Media 的 报头 部 分 包括 以 下 4 部 分 内 容 汪 Media Properties 


e RealMedia 文件 报头 ( RealMedia File Head- _ 


er) : 文件 的 第 一 个 块 。 

。 属性 ( Propetrties) 。 

。 媒体 属性 (Media Properties ) 。 

。 内 容 描述 ( Content Description ) 。 

RealMedia 文件 报头 以 后 ， 其 他 内 容 的 出 现 可 
以 任何 次 序 。 

(2) 数据 部 分 (Data Section) 

RealMedia 文件 的 数据 部 分 由 数据 块 报头 
(Data Chunk Header) 和 后 面 排列 的 媒体 数据 包 

















广 一 Data Section 





小 Index Section 


(Data Packets) 组 成 。 数 据 块 报头 标志 数据 块 的 图 7-3 ”RealMedia 文件 格式 


开始 ， 媒 体 数据 包 是 流 媒 体 数 据 的 数据 包 。 
(3) 索引 部 分 (Index Section ) 








RealMedia 文件 的 索引 部 分 由 描述 索引 区 内 容 的 索引 块 报 头 和 一 串 索 引 记录 组 成 。 














7.5.2 ASF 文件 格式 











流 媒 体 技术 的 良好 市 场 前 景 吸 引 了 众多 厂商 。 在 意识 到 网 络 流 媒体 对 于 互联 网 的 重要 性 之 
后 ，Microsoft 公司 立即 推出 了 Windows Media 与 Real Media 相 抗 衡 。Microsoft 公司 虽然 不 是 最 早 
涉足 流 媒 体 领域 的 公司 ， 但 Windows Media 技术 平台 以 其 方便 性 、 高 集成 度 、 低 费用 等 特点 ， 被 














人 们 广泛 接受 。 

Windows Media 技术 涵盖 了 一 整套 关于 流 媒 体 处 理 的 组 件 和 特性 ， 
Intranet (企业 内 部 网 ) 上 实现 基于 流 技术 的 数字 音 / 视 频 的 传输 ， 并 
媒体 的 许多 新 领域 ， 如 数字 版 权 管 理 (DRM) 、 消 费 者 器 材 集 成 等 。 

















其 主要 目的 是 在 Intermet 和 


日 Windows Media 涉及 数字 





Windows Media 技术 的 核心 是 ASF (Advanced Streaming Format， 高 级 流 格式 ) ， 因 此 ， 基 于 
Windows Media 技术 在 网 络 上 传输 的 内 容 又 被 称 为 ASF Stream ( ASF 流 )。ASF 支持 任意 的 压缩 / 
解压 缩编 码 方式 ， 并 可 以 使 用 任何 一 种 底层 网 络 传输 协议 ， 具 有 很 大 的 灵活 性 。Microsoft 已 将 
Windows Media 技术 捆绑 在 Windows 平台 中 ， 并 将 ASF 作为 Windows 版 本 中 多 媒体 内 容 的 标准 文 











件 格式 。 


ASF 格式 文件 的 扩展 名 为 . asf。 另 外 ,我 们 也 会 经 常见 到 Windows Media 流 媒体 文件 的 扩展 











名 是 . wmv 和. wma， 这 两 者 主要 是 为 了 区 别 视频 和 音频 ， 其 结构 与 ASF 没有 本 质 区 别 。 
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1.ASF 的 技术 特点 

ASF 是 一 种 包含 音频 、 视 频 、 图 像 以 及 控制 命令 脚本 等 多 媒体 信息 的 文件 格式 。 通 过 这 种 格 
式 ， 以 网 络 数据 包 的 形式 传输 ， 实 现 流 式 多 媒体 内 容 发 布 。ASF 格式 的 特点 是 视频 部 分 采用 
MPEG-4 压缩 算法 ， 音 频 部 分 则 采用 Microsoft 自行 研发 的 WMA 算法 ， 其 压缩 比 约 为 MP3 的 两 
倍 ， 音 质 与 MP3 相近 。 并 且 在 版 权 保护 方面 优 于 MP3 。 制 作者 可 以 将 视频 、 音 频 转换 为 ASF 格 
式 ， 也 可 以 通过 声卡 、 视 频 采 集 卡 将 诸如 传声器 、 摄 像 机 等 外 设 的 数据 保存 为 ASF 格式 ， 甚 至 
将 图 形 、 声 音 和 动画 数据 组 合成 一 个 ASF 格式 的 文件 。 另 外 ，ASF 格式 的 视频 中 可 以 带 有 命令 
代码 ， 能 够 实现 播放 视频 或 音频 的 某 个 时 刻 触 发 某 个 事件 或 操作 。 

ASF 格式 的 最 大 优点 就 是 压缩 比 高 、 文 件 小 ， 因 而 适合 网 络 传 输 。 利 用 Windows Media Play- 
er 可 以 直接 在 本 地 或 网 络 上 播放 ASF 格式 的 文件 ， 通 过 网 络 进行 流 式 处 理 及 播放 时 ，ASF 文件 
的 数据 传输 速率 可 以 在 28. 8 kbit/s ~3Mbit/s 之 间 变 化 ， 因 而 用 户 可 以 根据 应 用 环境 和 网 络 条 件 
选择 合适 速率 ， 实现 VOD 点 播 和 直播 等 。 

ASF 格式 的 其 他 特点 如 下 。 

1) 可 扩展 的 媒体 流 类 型 。ASF 格式 允许 制作 者 定义 符合 ASF 文件 格式 要 求 的 、 新 的 媒体 流 
类 型 。 任 一 存储 的 媒体 流 逻 辑 上 都 是 独立 于 其 他 媒体 流 的 ， 除 非 在 文件 头 部 分 明显 地 定义 了 其 
与 男 一 媒体 流 的 关系 。 

2) 组 件 下 载 。 特 定 的 有 关 播 放 组 件 的 信息 (例如 解压 缩 算法 和 播放 器 ) 能 够 存储 在 ASF 文 
件 头 部 分 ， 用 于 帮助 客户 机 能 够 找到 合适 的 播放 器 的 版 本 一 一 如 果 它 们 没有 在 客户 机 上 安装 。 

3) 可 伸缩 的 媒体 类 型 。ASF 被 设计 用 来 表示 可 伸缩 的 媒体 类 型 的 “带宽 ”之 间 的 依赖 关 
系 。ASF 存储 各 个 带宽 就 像 一 个 单独 的 媒体 流 。 媒 体 流 之 间 的 依赖 关系 存储 在 文件 头 部 分 ， 为 客 
户 机 以 独立 于 压缩 的 方式 解释 可 伸缩 的 选项 。 

4) 提供 了 丰富 的 媒体 流 优先 级 。 现 代 多 媒体 传输 系统 能 够 动态 地 调整 传输 速率 ， 以 适应 网 
络 资源 紧张 的 情况 ( 如 带宽 不 足 )。 多 媒体 内 容 的 制作 者 要 能 够 根据 流 的 优先 级 表达 他 们 的 参考 
信息 ， 如 最 低 保证 音频 流 的 传输 。 随 着 可 伸缩 媒体 类 型 的 出 现 ， 流 的 优先 级 的 安排 变 得 复杂 起 
来 ， 因 为 在 制作 的 时 候 很 难 决定 各 媒体 流 的 顺序 。ASF 允许 内 容 制 作者 在 媒体 的 优先 级 方面 有 效 
地 表达 他 们 的 意见 ， 其 至 在 可 伸缩 的 媒体 类 型 出 现 的 情况 下 也 可 以 。 

5) 语言 支持 。ASF 被 设计 为 支持 多 种 语言 。 媒 体 流 能 够 可 选 地 指示 所 含 媒体 的 语言 。 这 个 
功能 常用 于 音频 和 文本 流 。 一 个 多 语言 ASF 文件 指 的 是 包含 不 同 语言 版 本 的 同一 内 容 的 一 系列 
媒体 流 ， 人 允许 客户 机 在 播放 的 过 程 中 选择 最 合适 的 版 本 。 

6) 目录 信息 。ASF 提供 可 继续 扩展 的 目录 信息 的 功能 ， 该 功能 的 扩展 性 和 灵活 性 都 非常 
好 。 所 有 的 目录 信息 都 以 无 格式 编码 的 形式 存储 在 文件 头 部 分 ， 并 且 支 持 多 语言 ， 如 果 需 要 ， 目 
录 信 息 既 可 预先 定义 〈 如 作者 和 标题 ) ， 也 可 以 由 制作 者 自 定义 。 目 录 信 息 功能 既 可 以 用 于 整个 
文件 ， 也 可 以 用 于 单个 媒体 流 。 

2. ASF 文件 格式 

ASF 格式 文件 基本 的 组 织 单元 叫 作 ASF 对 象 ， 它 由 一 个 128bit (16 字 节 ) 的 全 球 唯 一 的 对 
象 标识 符 (Object ID) 、1 个 64bit 的 对 象 大 小 ( Object Size) 和 1 个 可 变 长 的 对 象 数 据 (Object 
Data) 组 成 ， 如 图 7-4 所 示 。 

ASF 对 象 的 结构 形式 类 似 于 RIFF 规范 中 的 块 (Chunk) 结构 。RIFF 规范 中 的 块 (Chunk) 是 AVI 
和 WAYV 格式 文件 的 基本 单元 。ASF 对 象 在 两 个 方面 改进 了 RIFF 的 设计 : 首先 ， 无 须 一 个 权威 机 构 来 
管理 对 象 标识 符 系统 ， 因 为 计算 机 网 卡 能 够 产生 一 个 有 效 的 唯一 的 GUID (Globally Unique IDentifier ) ; 
其 次 ， 对 象 大 小 (Object Size) 字段 占用 8 字 节 ， 已 足够 处 理 高 带宽 多 媒体 内 容 的 大 文件 。 
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ASF 文件 在 逻辑 上 由 三 个 高 层 对 象 组 成 : 头 对 象 (Header Object) 、 数 据 对 象 (Data Object) 和 索 
引 对 象 (Index Object) ， 如 图 7-5 所 示 。 头 对 象 是 必需 的 ， 并 且 必 须 放 在 每 一 个 ASF 文件 的 开头 部 分 ; 
数据 对 象 也 是 必需 的 ， 一 般 倩 况 下 紧 跟 在 头 对 象 之 后 ; 索引 对 象 是 可 选 的， 但 是 一 般 建议 使 用 。 


Header Object 


File Properties Obiect 
Stream Properties Obiect 1 


Stream Properties Obiect N 
<Other header objects> 


Data Object 


Data Packet 1 


像 己 视频 处 理 
































Data Packet M 


16 字 节 对 象 标 识 符 (Object ID) 


<Other top-level objects> 
8 字 节 对 象 大 小 (Object Size) 
Index Object 1 
对 象 数据 (Object Data) Index Object K 
(二 0) 字 节 Simple Index Obiect 1 
Simple Index Obiect L 


图 7-4 ASF 对 象 图 7-5 _ ASF 文件 的 三 个 高 层 对 象 











在 具体 实现 过 程 中 ， 可 能 会 出 现 一 些 文件 包含 无 序 的 〈out-of-order) 对 象 ，ASF 也 支持 。 但 
在 特定 情况 下 ， 如 从 特定 的 文件 源 (HTTP 服务 需 ) 读 取 该 类 ASF 文件 ， 将 导致 ASF 文件 不 能 使 
用 。 同 样 地 ， 有 些 ASF 文件 可 能 会 包含 额外 的 高 层 对 象 ， 一 般 推荐 将 这 些 额 外 的 对 象 排列 在 索 
引 对 象 之 后 。 


7.5.3 QuickTime (MOV) 文件 格式 


1.，QuickTime 文件 格式 的 特点 

QuickTime 文件 又 称 MOV 文件 ， 和 常用 的 文件 扩展 名 为 . qt 或 . mov。QuickTime 是 美国 Apple 
公司 开发 的 一 套 完 整 的 多 媒体 平台 架构 ， 可 以 用 来 进行 多 种 媒体 的 创建 、 生 产 和 分 发 ， 并 为 这 一 
过 程 提供 端 到 端的 支持 : 包括 媒体 的 实时 捕捉 ， 以 编程 的 方式 合成 媒体 ， 导 入 和 导出 现 有 的 媒 
体 ， 并 进行 编辑 制作 、 压 缩 、 分 发 ， 以 及 用 户 回放 等 多 个 环节 。QuickTime 文件 格式 是 QuickTime 
整个 架构 体系 中 的 重要 的 一 环 。 

QuickTime 的 多 媒体 架构 应 用 于 Mac 0S 和 Windows 系统 上 ， 而 QuickTime 文件 格式 是 与 平台 
无 关 的 ， 可 以 应 用 于 各 类 系统 。QuickTime 文件 格式 定义 了 存储 数字 媒体 内 容 的 标准 方法 ， 使 用 
这 种 文件 格式 不 仅 可 以 存储 单个 的 媒体 内 容 〈 如 视频 帧 或 音频 采样 ) ， 而 且 能 保存 对 该 媒体 作品 
的 完整 描述 。 因 为 这 种 文件 格式 能 用 来 描述 几乎 所 有 的 媒体 结构 ， 所 以 它 是 应 用 程序 间 (不 管 
运行 平台 如 何 ) 交换 数据 的 理想 格式 。 

QuickTime 文件 格式 支持 25 位 彩色 ， 支 持 RLE、JPEG 等 领先 的 集成 压缩 技术 ， 提 供 150 多 
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种 视频 效果 ， 并 配 有 提供 了 200 多 种 MIDI 兼容 音响 和 设备 的 声音 装置 。 新 版 的 QuickTime 进 一 
步 扩 展 了 原 有 功能 ， 包 含 了 基于 Internet 应 用 的 关键 特性 ， 能 够 通过 Internet 提供 实时 的 数字 化 信 
息 流 、 工 作 流 与 文件 回放 功能 。 为 了 适应 网 络 多 媒体 应 用 ，QuickTime 为 多 种 流行 的 浏览 器 软件 
提供 了 相应 的 QuickTime Viewer 插件 ( Plug-in)， 能 够 在 浏览 器 中 实现 多 媒体 数据 的 实时 回放 。 
该 插件 的 快速 启动 (Fast Start) 功能 ， 可 以 令 用 户 几 乎 能 在 发 出 请 求 的 同时 便 收看 到 第 一 帧 视频 
画面 。 而 且 ， 该 插件 可 以 在 视频 数据 下 载 的 同时 就 开始 播放 视频 图 像 ， 用 户 不 需要 等 到 全 部 下 载 
完毕 就 能 进行 欣赏 。 此 外 ，QuickTime 还 提供 了 自动 速率 选择 功能 ， 当 用 户 通过 调用 插件 来 播放 
QuickTime 多 媒体 文件 时 ， 能 够 自己 选择 不 同 的 连接 速率 下 载 并 播放 影像 ， 当 然 ， 不 同 的 速率 对 
应 着 不 同 的 图 像 质量 。 此 外 ，QuickTime 还 采用 了 一 种 称 为 QuickTime VR 的 虚拟 现实 (Virtual 
Reality) 技术 ， 用 户 只 需 通 过 鼠标 或 键盘 的 交互 式 控制 ， 就 可 以 观察 某 一 地 点 周围 360" 的 景象 ， 
或 者 从 空间 任何 角度 观察 某 一 物体 。QuickTime 因 具 有 跨 平台 、 存 储 空间 要 求 小 等 技术 特点 ， 得 
到 业界 的 广泛 认可 ， 目 前 已 成 为 数字 媒体 软件 技术 领域 的 事实 上 的 工业 标准 。 

2. QuickTime 文件 格式 涉及 的 一 些 基本 概念 

QuickTime 文件 格式 中 媒体 描述 和 媒体 数据 是 分 开 存 储 的 ， 媒 体 描述 或 元 数据 (Metadata ) 
叫 作 电影 (Movie) ， 包 含 轨道 数目 、 视 频 压缩 格式 和 时 间 信 息 。 同 时，Movie 中 包含 媒体 数据 存 
储 区 域 的 索引 。 媒 体 数据 是 诸如 视频 帧 和 音频 之 类 的 采样 数据 ， 可 以 与 QuickTime 电影 存储 在 同 
一 个 文件 中 ， 也 可 以 在 一 个 单独 的 文件 或 者 多 个 文件 中 。 

QuickTime 使 用 两 种 基本 结构 存储 信息 : 标准 原子 (Classic atom) 和 QT 原子 (QT atom ) 。 
标准 原子 是 简单 原子 ，QT 原子 是 原子 容器 原子 ， 人 允许 建立 复杂 的 分 层 结构 。QuickTime 原子 容 右 
提供 在 QuickTime 中 存储 信息 的 基本 结构 ， 它 是 QT 原子 的 树 形 分 层 结构 。 

QuickTime 中 的 原子 是 一 种 层次 结构 ， 即 一 个 原子 可 以 包含 其 他 的 原子 ， 这 种 层次 结构 也 可 
以 描述 为 双亲 原子 、 孩 子 原 子 和 兄弟 原子 等 。 包 含有 其 他 原子 的 这 个 原子 也 称 为 容器 原子 (Con- 
tainer atom) ， 而 不 包含 其 他 原子 的 原子 称 为 叶 原 子 (Leaf atom ) 。 

QuickTime 文件 简单 地 说 就 是 一 群 原子 的 集合 ， 对 原子 的 次 序 没 有 规定 。 文 件 系统 支持 文件 
扩展 名 ，Windows 平台 下 QuickTime 文件 扩展 名 通常 是 . mov。 在 Macintosh 平台 上 ， QuickTime 文 
件 类 型 是 moov。 在 Internet 上 ，QuickTime 文件 由 MIME“video/quicktime” 来 提供 服务 。 

QuickTime 电影 原子 的 原子 类 型 为 moov。 它 包含 轨道 原子 (Track atom) ， 而 轨道 原子 又 包含 
媒体 原子 (Media atom) 。 最 底层 是 叶 原 子 (Leaf atom) ， 包 含 实际 数据 。 
电影 (Movie) 由 一 个 或 多 个 轨道 组 成 ， 每 个 轨道 都 独立 于 其 他 轨道 。 轨 道 提供 一 种 强大 、 
灵活 的 结构 ， 使 用 它 可 以 精确 地 控制 产生 复杂 的 交互 电影 。 每 个 轨道 都 代表 了 一 个 独特 的 随时 
间 变 化 的 功能 或 方面 。 一 个 单个 Movie 可 以 有 许多 不 同 的 轨道 类 型 。 包 括 Video、Audio、Text、 
Sprite 、Flash 、HREF 、Hinting 、QuickTime VR 和 Chapter divisions。 举 例 说 明 如 下 。 

1) Movie track: 包含 整个 Movie 的 版 权 、 注 释 及 其 他 概要 信息 。 

2) Video track : 数字 化 视频 、 着 色 的 3D 动画 或 其 他 编辑 图 像 的 序列 ， 以 及 可 选 特殊 效果 。 

3) Text track: 输入 到 QuickTime 中 的 标题 、 片 头 字 幕 等 文字 信息 。 

4) Hint track: 包含 允许 流 服务 器 通过 实时 流 方式 传输 媒体 轨道 的 信息 。 

3. 文件 结构 实例 解析 

图 7-6 所 示 为 用 MovSpot 对 一 个 QuickTime 文件 分 析 得 到 的 树 状 结构 图 。 图 7-6 中 ，ftyp 指示 
了 文件 类 型 信息 ，mdat 包含 了 媒体 数据 信息 ，moov 是 movie atom， 包 含 了 track 、video 、audio 等 
一 系列 的 头 信息 。 
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7.S$.4 下 LV 文件 格式 EE Mov5Spot ¥1.0 到 
打开 文件 : [avtestiano3 | 





随 着 近年 来 流 媒体 技术 的 广泛 应 用 
Adobe Flash 也 将 应 用 范围 推广 到 流 媒体 领域 ， 
成 为 继 RealSystem、 Windows Media、 Quick- 














-free[SBytes] 
























































Time 之 后 的 第 四 种 流 媒 体 技术 及 平台 。 ! mdat Tots71yt3] 
、 、 2 司 .moov[12918Bytes 
在 Flash 流 媒体 中 ， 主 要 有 两 种 视频 播 。 valDplgtes] 
= trak[d4394Bytes 
放 格 式 ， SWF 和 FLV， 其 中 SWF 较为 复杂 ， aalagytea] 
四 本 ; 回 -mdia[4294Bytes 
而 FLV 则 相对 简单 ， 且 文件 更 小 ， 因 此 很 aa2pytea 
» 、 7 WE 、 : : ytes 
多 的 视频 网 站 都 采用 FLV 作为 流 媒 体 文件 | 旺 : | 
格式 。 : inf[36Bytas] 
: : -dref[28Bytes] 
FLV 是 Flash Video 的 简称 ，FLYV 文件 格 te 
: i vytes 
式 是 随 着 Flash MX 的 推出 而 发 展 起 来 的 一 : ee 
种 流 式 视 频 格式 ， 它 利用 了 网 页 上 广泛 使 用 i 
的 Flash Player 平台 将 视频 整合 到 Flash 动 "| ‘stco[1920Bytes] 
据 - trak[8400Bytes] 
画 中 。 也 就 是 说 ， 网 站 的 访问 者 只 要 能 | 
Flash 动画 ， 自 然 也 能 看 FLV 格式 视频 ， 而 : oe 
无 须 再 额外 安装 其 他 视频 插件 ，FLYV 视频 的 Dt 副 
使 用 给 视频 传播 带 来 了 极 大 便利 。Flash MX 





2004 对 其 提供 了 完美 的 支持 ， 它 的 出 现 有 图 7-6 ”QuickTime 文件 结构 示例 
效 地 解决 了 视频 文件 导入 Flash 后 ， 使 导出 
的 SWF 文件 过 大 而 不 能 在 网 络 上 很 好 地 使 用 等 缺点 。FLYV 格式 不 仅 可 以 轻松 地 导入 Flash 中， 并 
且 能 起 到 保护 版 权 的 作用 。 
目前 在 Internet 上 提供 FLV 格式 视频 的 网 站 有 两 


类 :一 类 是 专门 的 视频 分 享 网 站 ， 如 美国 的 YouTube 、 文件 头 @ 字 著 


国内 的 六 间 房 、 土 豆 网 等 ， 男 一 类 是 提供 视频 播客 的 






































门户 网 站 ， 如 新 浪 视 频 播 客 等 。 此 外 ， 百 度 最 近 也 推 BS 
出 了 关于 视频 搜索 的 功能 ， 里 面 搜索 出 来 的 视频 基本 se 
都 是 采用 了 流行 的 FLV 格式 。FLV 已 成 为 了 目前 最 主 。 文件 体 
流 的 在 线 视频 播放 格式 。 上 

FLV 是 流 媒体 封装 格式 ， 我 们 可 以 将 其 数据 看 作 机 
是 二 进 制 字 节 流 。 总 体 上 看 ，FLV 包括 文件 头 (File 


Header) 和 文件 体 (File Body) 两 部 分 ， 其 中 文件 体 由 
一 系列 的 标签 (Tag) 组 成 ， 如 图 7-7 所 示 。 标 签 
(Tag) 可 以 分 成 3 种 类 型 : 音频 流 Tag (Audio Tag) 、 视 频 流 Tag (Video Tag) 和 脚本 流 (Script 
Tag， 包 括 关 键 字 或 者 文件 信息 等 ) ， 且 每 个 Tag 只 能 包含 一 种 类 型 的 数据 。 

1. 文件 头 (File Header ) 

文件 头 (File Header) 在 当前 版 本 中 总 是 由 9 字 节 组 成 ， 包 括 文件 标识 、 版 本 号 等 全 局 信 
息 ， 如 表 7-7 所 示 。 


图 7-7 FLYV 文件 结构 
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表 7-7 FLYV 文件 的 文件 头 





























字 上段 长 度 说 明 
文件 标识 3 字 节 总 为 “FLV” (0x46 0x4C 0x56 ) 
版 本 号 1 字 节 目前 为 1 (0x01 ) 
ps 第 8 位 为 “1” 表 示 存 在 视频 Tag; 第 6 位 为 “1” 表 示 存 在 音频 Tag; 其 他 位 保 
流 类 型 1 季节 a 
留 ， 必 须 为 0 
文件 头 长 度 4 字 节 为 UB2 类 型 的 值 ， 表 示 整 个 文件 头 的 字 节 长 度 ， 在 版 本 1 中 总 为 9 








2. Tag 的 结构 
FLYV 文件 的 Tag 结构 如 表 7-8 所 示 。 


表 7-8 ”FLYV 文件 的 Tag 结构 



























































字 段 长 度 说 明 
Previous Tag Size 4 字 节 表示 前 面 一 个 Tag 的 长 度 。 对 于 第 1 个 Tag, 其 值 是 为 0 
三 类 : 0x08 表示 音频 Tag，0x09 表示 视频 Tag，0x12 表示 脚本 Tag。 其 他 类 型 
Tag 类 型 工 子 让 
值 被 保留 
数据 区 长 度 3 字 节 为 UD4 类 型 的 值 ， 表 示 该 Tag 数据 区 的 字 节 数 
a 为 UD4 类 型 的 值 ， 表 示 该 Tag 的 时 间 惟 (单位 为 ms) ， 第 一 个 Tag 的 时 间 戳 
时 间 截 3 字 节 
总 是 0 
, ee i 为 时 间 截 的 扩展 字 节 ， 当 24 位 数值 不 够 时 ， 该 字 节 作为 最 高 位 将 时 间 戳 扩展 
扩展 时 间 截 1 于 、 i 
为 32 位 值 
streamsID 3 字 节 总 是 0 
a a 音频 、 视 频 、 脚 本 三 类 数据 中 的 一 种 。 根 据 不 同 的 Tag 类 型 就 有 不 同 的 数据 
Tag 数据 区 不 定 











多， 数据 区 的 长 度 由 “数据 区 长 度 ”字段 定义 

















7.5.5 其 他 流 媒体 文件 格式 


1. F4V 文件 格式 

F4V 是 Adobe 公司 继 FLV 格式 后 为 了 迎接 高 清 时 代 而 推出 的 支持 H. 264 的 流 媒 体格 式 。 它 
和 FLV 的 主要 区 别 在 于 ，FLYV 格式 采用 的 是 H. 263 视频 编码 ， 而 F4V 则 是 支持 H. 264 高 清晰 度 
视频 编码 ， 数 码 率 最 高 可 达 50Mbit/s。F4V 兴起 之 初 ， 由 于 编码 的 特殊 ， 常 不 为 各 播放 器 所 兼容 
播放 ， 但 随 着 高 清 时 代 的 来 临 ， 作 为 一 种 压缩 效率 更 高 、 视 频 更 清晰 、 更 利于 在 网 络 传播 的 格 
式 ，F4V 已 经 逐渐 取代 了 传统 FLV， 也 已 经 被 大 多 数 主流 播放 器 兼容 播放 ， 如 QQ 影音 、 暴 风 影 
音 等 最 新 版 都 已 经 能 够 直接 播放 F4V 文件 。 现 在 主流 的 视频 网 站 (例如 土豆 网 、 酷 6 网 、 优 酷 
网 ) 都 开始 用 H. 264 编码 的 F4V 文件 。 

2. 3GP 文件 格式 

3GP 是 一 种 3G 流 媒体 的 视频 编码 格式 ， 主 要 是 为 了 配合 3G 网 络 的 高 传输 速率 而 开发 的 ， 
应 用 在 手机 等 移动 设备 上 。 其 优点 是 文件 体积 小 ， 适 合 移动 设备 使 用 ; 缺点 是 在 PC 上 兼容 性 
差 ， 支持 软件 少 ， 且 播放 的 视频 分 辨 率 低 、 帧 频 低 。 

3GP 文件 的 视频 部 分 可 以 用 MPEG-4 第 2 部 分 、H.263 或 MPEG-4 第 10 部 分 (AVC/H.264) 
等 标准 进行 压缩 编码 ， 声 音 部 分 则 支持 AMR-NB、AMR-WB、AMR-WB + 或 HE-AAC 编码 。 目 前 
3GP 文件 有 如 下 两 种 不 同 的 格式 。 

1) 3GPP: 针对 GSM 手机 ， 扩 展 名 为 .3gp。 

2) 3GPP2: 针对 CDMA 手机 ， 扩 展 名 为 .3g2。 




























































































第 7 章 |247 











(©) 数字 图像 与 视频 处 理 





























7.6 小 结 








由 于 早期 的 模拟 图 像 和 视频 存在 复制 失真 和 因 存 储 介 质 磨损 而 失效 等 问题 ， 所 以 随 着 数字 
化 技术 的 发 展 ， 数 字 图 像 和 视频 文件 格式 便 应 运 而 生 。 随 着 计算 机 网 络 技术 的 发 展 和 Internet 的 
普及 ， 进 而 推动 了 对 数字 媒体 文件 进行 远 距离 传输 的 需求 ， 在 网 络 带 宽 的 制约 下 ， 压 缩 文 件 大 小 
的 需求 变 得 更 加 强烈 ， 这 导致 了 数字 视频 压缩 格式 的 产生 。 同 时 ,为 了 在 IP 网 上 实现 视频 流 的 
实时 传输 ， 并 实现 边 下 载 边 播放 ， 就 需要 将 一 些 不 便于 网 络 传输 的 视频 格式 转换 为 支持 流 式 传 
输 、 播 放 的 流 媒体 格式 。 

本 章 介 绍 了 一 些 和 常见 的 数字 图 像 文件 格式 ， 如 BMP、GIF、JPEG/JFIF、TIFF/TIF、PCX、 
PNG、SVG 等 ;常见 的 动画 文件 格式 ， 如 FLLFLC、SWF 等 ;常见 的 流 媒体 文件 格式 ， 如 RA、 
RM/RMVB、ASF、WMV 、WMA 、MOV 、FLYV 等 。 

RIFF 是 Windows 环境 下 大 部 分 媒体 文件 遵循 的 一 种 文件 格式 规范 ， 常 见 的 如 AVI 文件 等 都 
遵循 RIFF 规范 。 

数字 图 像 有 多 种 文件 存储 格式 ， 每 种 格式 一 般 由 不 同 的 开发 商 支 持 。 随 着 信息 技术 的 发 展 
和 图 像 应 用 领域 的 不 断 拓 宽 ， 还 会 出 现 新 的 图 像 文件 格式 。 因 此 ， 要 进行 图 像 处 理 ， 必 须 了 解 图 
像 文件 的 格式 ， 即 图 像 文件 的 数据 结构 。 本 章 介 绍 了 几 种 常见 的 图 像 文 件 格式 ， 主 要 有 BMP、 
GIF、JPEG/AJFIF、TIFFATIF、PCX、PNG 和 SVG 等 格式 ， 这 有 助 于 了 解 各 种 图 像 文 件 格式 的 特 
性 ， 便 于 在 实际 应 用 中 做 选择 。 

BMP 图 像 文件 格式 最 早 应 用 于 Microsoft 公司 推出 的 Windows 操作 系统 ， 是 一 种 最 简单 的 图 
像 文件 格式 ， 它 以 独立 于 设备 的 方法 描述 位 图 。 虽 然 它 提供 的 信息 过 于 简单 ， 但 是 由 于 Windows 
系统 的 普及 以 及 BMP 本 身 具 有 格式 简单 、 标 准 、 透 明 的 特点 ，BMP 图 像 文件 格式 得 到 了 推广 ， 
各 种 常用 的 图 形 图 像 软件 都 可 以 对 该 格式 的 图 像 文件 进行 编辑 和 处 理 。 

JPEG 是 Joint Photographic Experts Group 的 缩写 ，* . jpg/ *. jpeg 文件 采用 JPEG 压缩 算法 ， 是 
最 为 常见 的 一 种 压缩 图 像 文 件 ， 如 网 上 传输 的 图 像 文件 大 多 是 * . jpg/ * . jpeg 文件 。JPEG 文件 格 
式 具 有 以 下 特点 : 适用 性 广 ， 大 多 数 图 像 类 型 都 可 以 进行 JPEG 编码 ; 对 于 数字 化 照片 和 表达 自 
然 景物 的 图 片 ，JPESG 编码 方式 具有 非常 好 的 处 理 效果 。JFIF 是 JPEG 文件 交换 格式 。 

TIFF 是 最 复杂 的 一 种 位 图 文件 格式 ， 其 格式 扩展 性 强 。 它 与 计算 机 的 结构 、 操 作 系 统 和 硬 
件 无 关 ， 可 以 处 理 黑白 、 灰 度 和 彩色 图 像 ， 人 允许 用 户 针对 扫描 仪 、 显 示 器 或 打印 机 的 独特 性 能 进 
行 调 试 。 由 于 它 的 结构 灵活 和 包容 性 大 ， 已 成 为 图 像 文件 格式 的 一 种 标准 ， 绝 大 多 数 图 像 系 统 都 
支持 这 种 格式 。 

SVG 是 -种 开放 标准 的 矢量 图 形 语言 ， 它 严格 遵从 XML 语法 ， 并 用 文本 格式 的 描述 性 语言 3 
描述 图 像 内容 ， 因 此 是 一 种 和 图 像 分 辩 率 无 关 的 矢量 图 形 格式 ， 可 以 设计 高 分 辩 率 的 Web 图 形 
页 面 ， 在 手机 等 无 线 手持 设备 上 得 到 广泛 的 应 用 。 

在 动画 设计 领域 ,常见 的 文件 格式 有 GIF、FLIAFLC、SWT 等 格式 。 

GIF 主要 是 为 数据 流 而 设计 的 一 种 传输 格式 ， 而 不 是 作为 文件 的 存储 格式 。 它 支持 在 一 个 
GIF 文件 中 可 以 同时 存储 若干 幅 静 止 图 像 ， 并 且 可 以 按照 一 定 的 顺序 和 时 间 间 隔 将 多 幅 图 像 依 次 
读 出 并 显示 在 屏幕 上 ， 进 而 形成 连续 的 动画 。 目 前 ，Internet 上 大 量 采 用 的 彩色 动画 文件 多 为 这 
种 格式 的 文件 。 

SWF 是 基于 Macromedia 公司 ( 现 已 被 Adobe 公司 收购 ) Shockwave 技术 的 流 媒体 动画 格式 ， 
是 用 Flash 软件 制作 的 一 种 格式 。 由 于 其 文件 小 、 交 互 能 力 强 、 支 持 多 个 层 和 时 间 线 程 等 特点 ， 
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芒 和 视频 文人 格式 S) 


故 被 广泛 应 用 于 网 络 动画 中 。SWF 文件 通常 也 被 称 为 Flash 文件 ， 其 文件 扩展 名 为 . swf。SWF 格 
式 在 网 络 教 学 、 互 联网 直播 中 得 到 广泛 的 应 用 。 

AVI 是 Microsoft 公司 开发 的 一 种 符合 RIFF 文件 规范 的 数字 音频 与 视频 文件 格式 ， 人 允许 视频 
和 音频 交错 在 一 起 进行 同步 播放 ， 支 持 256 色 和 RLE 压缩 。AVI 文件 目前 主要 应 用 在 多 媒体 光盘 
上 ， 用 来 保存 电影 、 电 视 等 各 种 影像 信息 ， 有 时 也 出 现在 Internet 上 ， 供 用户 下 载 、 欣 赏 新 影 
的 精彩 片断 。 

MPEG 视频 文件 格式 ( MPEG/AMPG/DAT/DivX/XviD) 基于 MPEG-1/ MPEG-2/ MPEG-4 视频 
压缩 算法 ， 广 泛 应 用 于 VCD、DVD、 网 络 视频 监控 等 领域 。 

目前 ， 流 媒体 技术 广泛 应 用 于 视频 会 议 、 网 络 直播 、 视 频 点 播 、 远 程 教学 、 网 络 监控 等 领 
域 。 尤 其 是 随 着 互联 网 与 计算 机 的 普及 ， 流 媒体 技术 已 经 改变 了 人 们 的 生活 和 工作 方式 。 并 且 很 
多 新 兴 流 媒体 业务 也 正在 不 断 的 研发 和 拓展 中 。 本 章 主 要 介绍 了 四 大 流 媒体 系统 RealSystem、 
Windows Media、QuickTime 以 及 Adobe Flash 的 流 媒 体 文件 格式 。 

RMZRMVB 和 RA 格式 分 别 是 Real Networks 公司 开发 的 一 种 流 式 视频 Real Video 和 流 式 音频 
Real Audio 文件 格式 ， 主 要 用 来 在 低速 率 的 网 络 上 实时 传输 活动 视频 影像 。 可 以 根据 网 络 数据 传 
输 速 率 的 不 同 而 采用 不 同 的 压缩 比 ， 并 在 数据 传输 过 程 中 边 下 载 边 播放 视频 影像 ， 从 而 实现 影 
像 数 据 的 实时 传送 和 播放 。 

ASF 文件 格式 是 Microsoft 公司 的 Windows Media 的 核心 。 音 频 、 视 频 、 图 像 以 及 控制 命令 
脚本 等 多 媒体 信息 通过 ASF 格式 ， 以 网 络 数据 包 的 形式 传输 ， 实 现 流 媒体 内 容 发 布 。 男 外 ， 
Microsoft 公司 还 推出 了 WMV 、WMA 等 新 的 流 媒 体格 式 。 

QuickTime (MOV) 文件 格式 是 Apple 公司 开发 的 一 种 流 媒 体 文件 格式 ， 其 最 大 的 特点 是 平 
台 无 关 的 ， 即 既 支 持 MacOS 操作 系统 ， 同 时 也 支持 Windows 操作 系统 。 

FLV 是 Flash Video 的 简称 ，FLYV 文件 格式 是 随 着 Flash MX 的 推出 而 发 展 起 来 的 一 种 流 式 
视频 格式 ， 它 利用 了 网 页 上 广泛 使 用 的 Flash Player 平台 ， 将 视频 整合 到 Flash 动画 中 。F4V 是 
Adobe 公司 继 FLV 格式 后 为 了 迎接 高 清 时 代 而 推出 的 支持 H. 264 的 流 媒体 格式 。 它 和 FLV 主要 
的 区 别 在 于 ，FLV 格式 采用 的 是 H. 263 视频 编码 ， 而 F4V 是 则 支持 H. 264 高 清晰 度 视频 编码 。 
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7.7 习题 


1. 简 述 RIFF 文件 格式 ， 并 画 出 RIFF 文件 头 结构 。 

2. 什么 是 位 图 ? 位 图 中 的 像素 颜色 如 何 表示 ? 

3. 什么 是 调 色 板 ? Windows 操作 系统 有 哪 几 种 调 色 板 ? 分 别 起 什么 作用 ? 
4 

5 





. 图 像 文件 的 组 成 部 分 有 哪些 ?分别 包 含 什 么 内 容 ? 请 画 出 图 像 文件 结构 示意 图 。 
. 试 述 BMP 文件 的 结构 和 各 部 分 的 主要 人 作用， 描述 BMP 文件 的 位 图 文件 头 和 位 图 信息 头 的 











6. GIF 文件 是 如 何 组 织 数据 的 ? 它 有 什么 特点 ? 

7. 什么 是 JFIF 文件 格式 ?JPEG 文件 中 有 哪些 常用 标记 ? 

8. 简 述 PNG 文件 的 特性 。 

9. SVG 文件 格式 具有 哪些 特点 ? 

10. 常见 动画 文件 格式 有 哪些 ? 

11. 简要 描述 SWF 文件 的 文件 头 结构 。SWF 文件 中 的 标签 是 如 何 组 成 和 分 类 的 ? 
12. 有 哪些 常见 的 视频 文件 格式 ?分别 有 什么 特点 ? 

13. 有 哪些 常见 的 流 媒体 文件 格式 ?分别 有 什么 特点 ? 
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第 8 前 数字 水 印 技术 


本 章 学 习 目 标 : 

。 了 解数 字 水 印 的 基本 特征 、 分 类 和 应 用 。 

。 掌 握 水 印 数字 系统 的 组 成 ， 数 字 水 印 的 嵌入 和 提取 的 基本 原理 。 

。 掌握 最 低 有 效 位 (LSB) 法 、 基 于 DCT 的 数字 图 像 水 印 谈 入 和 提取 算法 。 
e 了 解数 字 视 频 水 印 的 误 入 和 提取 方案 。 


8.1 数字 水 印 概述 


8.1.1 数字 水 印 技术 的 产生 背景 和 应 用 


信息 媒体 的 数字 化 为 信息 的 存 取 提供 了 极 大 的 便利 性 ， 同 时 也 显著 提高 了 信息 表达 的 效 
率 和 准确 性 。 特 别 是 随 着 计算 机 通信 网 络 技术 的 发 展 ， 以 网 络 为 载体 的 媒体 信息 的 传播 和 交 
易 极 大 地 推动 了 信息 化 社会 的 前 进 。 然 而 ， 网 络 在 给 人 们 带 来 便利 的 同时 也 暴露 出 越 来 越 严 
重 的 安全 问题 。 例 如 ， 现 代 盗 版 者 仅 需 轻 点 几 下 鼠标 就 可 以 获得 与 原版 一 样 的 复制 品 ， 并 以 
此 获取 暴利 ; 而 一 些 具有 特殊 意义 的 信息 ， 如 涉及 司法 诉讼、 政府 机 要 等 信息 ， 则 会 遭 到 恶 
意 攻击 和 算 改 伪造 等 。 这 些 都 严重 侵害 了 媒体 作者 、 发 布 者 和 合法 用 户 的 权益 ， 从 而 也 妨碍 
了 数字 媒体 在 许多 方面 更 进一步 的 发 展 和 应 用 。 目 前 ， 数 字 媒 体 的 信息 安全 、 知 识 产权 保护 
和 认证 问题 变 得 日 益 突 出 ， 且 已 成 为 数字 世界 中 一 个 非常 重要 和 紧迫 的 议题 。 

虽然 成 熟 的 密码 学 是 解决 当前 网 络 信息 安 全 的 主要 手段 ， 但 是 ， 对 于 多 媒体 内 容 存在 超 分 
布 (Super-distribution) 问题 ， 即 内 容 一 旦 解密 ， 便 可 以 随意 地 被 复制 、 传播 。 换 言 之 ， 密 码 学 
只 能 保护 传输 中 的 内 容 ， 而 内 容 一 旦 解密 就 不 再 有 保护 作用 了 。 因 此 ,迫切 需要 一 种 替代 技术 或 
是 对 密码 学 进行 补充 的 技术 ， 它 应 该 甚至 在 内 容 被 解密 后 也 能 够 继续 保护 内 容 。 这 样 ， 人 们 提出 
了 新 兴 的 信息 隐藏 的 概念 一 一 数字 水 印 (Digital Watermark ) 。 

数字 水 印 技术 的 基本 思想 是 将 含有 作者 电子 签名 、 日 期 、 公 司 标志 、 商 标 或 使 用 权限 等 的 数 
字 信 息 作为 水 印信 息 ， 通 过 一 定 的 算法 将 水 印信 息 岩 入 图 像 、 文 本 、 视 频 和 音频 等 数字 媒体 中 ， 
但 不 影响 原 内 容 的 价值 和 使 用 ， 并 且 不 能 被 人 的 知觉 系统 觉察 或 注意 到 ， 并 且 在 需要 时 ， 能 够 通 
过 一 定 的 技术 检测 方法 提取 出 水 印 ， 以 此 作为 判断 媒体 的 版 权 归属 和 跟踪 起 诉 非法 侵权 的 证 据 。 
与 加 密 技术 不 同 ， 数 字 水 印 技术 并 不 能 阻止 盗版 活动 的 发 生 ， 但 它 可 以 判别 对 象 是 否 受 到 保护 ， 
监视 被 保护 数据 的 传播 、 真 伪 鉴 别 和 非法 复制 、 解 决 版 权 纠纷 并 为 法 庭 提 供 证 据 ， 为 数字 媒体 内 
容 在 认证 、 防 伪 、 防 算 改 、 保 障 数据 安全 和 完整 性 等 方面 提供 了 有 效 的 技术 手段 。 

最 初 提出 数字 水 印 的 目的 是 为 了 保护 版 权 ， 然而 随 着 数字 水 印 技术 的 发 展 ， 人 们 发 现 了 更 
多 更 广 的 应 用 ， 有 许多 是 当初 人 们 所 没有 预料 到 的 。 下 面 列举 出 数字 水 印 的 几 种 实际 应 用 。 

1) 版 权 保护 。 目 前 ， 版 权 保护 可 能 是 水 印 最 主要 的 应 用 ,为 了 表明 对 数字 作品 内 容 的 所 有 
权 ， 数 字 作 品 所 有 者 用 密 钥 产生 水 印 并 将 其 嵌入 原始 载体 对 象 中 ， 然 后 就 可 公开 发 布 岩 入 水 印 
的 数字 作品 。 如 果 该 作品 被 资 版 或 出 现 版 权 纠 纷 时 ， 所 有 者 可 利用 从 盗版 作品 或 水 印 作品 中 提 
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取水 印信 号 作为 依据 ， 保 护 所 有 者 的 权益 。 

2) 广播 监控 。 如 果 在 数字 广播 节目 的 内 容 中 肯 入 标记 广播 电台 的 数字 水 印信 息 ， 通 过 监测 
设备 的 实时 检测 ， 判 断 节 目 内 容 的 来 源 ， 便 可 有 效 地 用 于 广播 监视 ， 防 止 广播 电台 之 间 的 大 规模 
的 侵权 行为 。 

3) 防止 非法 复制 。 在 数字 作品 发 行 体系 中 ， 人 们 和 希望 有 一 种 复制 保护 机 制 ， 即 不 允许 未 授 
权 的 媒体 复制 。 在 一 个 封闭 或 秘 有 的 系统 中 ， 数 字 媒 体内 容 需 要 特殊 的 硬件 来 复制 和 观看 使 用 ， 
在 数字 作品 中 岁入 水 印 来 标识 允许 的 复制 数 ， 每 复制 一 份 ， 进 行 复制 的 硬件 会 修改 水 印 内 容 ， 将 
允许 的 复制 数 减 一 ， 以 防止 大 规模 的 盗版 。 

4) 数字 指纹 。 为 了 避免 未 经 授权 的 复制 和 分 发 数字 作品 ， 数 字 作 品 的 所 有 者 可 在 其 发 行 的 
每 个 复制 品 中 藤 入 不 同 的 水 印 (数字 指纹 )。 如 果 发 现 了 未 经 授权 的 复制 品 ， 则 通过 检索 数字 指 
纹 来 追踪 其 来 源 ， 确 定 它 的 合法 拥有 者 。 例 如 ， 在 按 次 付费 观看 (Pay-Per-View，PPV) 和 视频 
点 播 (VOD) 等 实时 视频 流 应 用 中 ， 可 以 将 用 户 的 D 作为 数字 指纹 钥 入 到 视频 中 来 跟踪 用 户 是 
否 有 超越 其 许可 权限 的 行为 。 

5) 内 容 认 证 。 目 前 许多 视频 编辑 和 处 理 软件 可 以 轻易 地 修改 数字 视频 的 内 容 ， 使 得 视频 内 
容 不 再 可 靠 。 利 用 视频 水 印 进行 内 容 认 证 和 完整 性 校 验 的 目的 是 检测 对 数字 视频 作品 的 修改 ， 
其 优点 在 于 : 认证 同 内 容 是 密 不 可 分 的 ， 简 化 了 处理 过 程 。 

6) 多 语言 电影 系统 和 电影 分 级 。 利 用 视频 数字 水 印 技术 ， 可 以 把 电影 的 多 种 语言 配音 和 字 
幕 嵌 入 到 视频 序列 中 携带 ， 在 保证 视觉 质量 不 受 影响 的 情况 下 节省 了 声音 的 传输 信道 。 与 此 类 
似 ， 把 电影 分 级 信息 租 入 视频 序列 中 ， 可 以 实现 画面 放映 的 控制 ， 从 而 实现 电影 的 分 级 播放 。 

7) 安全 隐蔽 通信 。 网 络 情报 战 是 信息 战 的 重要 组 成 部 分 ， 其 核心 内 容 是 利用 公用 网 络 进行 
保密 数据 传送 。 迄 今 为 止 ， 学 术 界 在 这 方面 的 研究 思路 一 直 未 能 突破 “文件 加 密 ” 的 思维 模式 。 
然而 ， 经 过 加 密 的 文件 往往 是 混乱 无 序 的 ， 容 易 引 起 攻击 者 的 注意 。 数 字 水 印 所 依赖 的 信息 隐藏 
技术 不 仅 提供 了 非 密 文 的 安全 途径 ， 更 引发 了 信息 战 尤其 是 网 络 情报 战 的 革命 ， 产 生 了 一 系列 
新 颖 的 作战 方式 ， 使 得 利用 网 络 进行 保密 通信 有 了 新 的 思路 ， 利 用 数字 化 音 视 频 信号 相对 于 人 
的 视觉 、 听 觉 元 余 ， 可 以 进行 各 种 时 /空域 和 变换 域 的 信息 隐藏 。 例 如 ， 发 送 者 可 以 将 秘密 信息 
(如 软件 、 图 像 、 数 据 、 文 本 、 音 频 、 视 频 ) 能 入 公开 的 视频 中 ， 只 有 指定 的 接收 方才 能 根据 事 
先 约定 的 密 钥 和 算法 提取 出 其 中 的 信息 ， 而 其 他 人 无 法 觉察 到 隐藏 的 水 印 ， 从 而 实现 秘密 信息 
的 安全 传输 。 

数字 水 印 技术 还 处 于 发 展 之 中 ， 上 述 几 个 方面 也 不 可 能 包含 其 所 有 可 能 的 应 用 领域 , 但 可 
以 看 出 数字 水 印 未 来 的 应 用 市 场 将 会 更 加 广阔 。 


8.1.2 数字 水 印 的 基本 特征 


数字 水 印 是 永久 伐 入 在 其 他 数据 (载体 数据 或 宿主 数据 ) 中 具有 可 鉴别 性 的 数字 信和 号 或 模 
式 ， 而 且 并 不 影响 载体 数据 的 可 用 性 。 不 同 的 应 用 对 数字 水 印 的 要 求 不 尽 相 同 ， 一 般 认 为 数字 水 
印 应 具有 如 下 的 基本 特征 。 

1. 不 可 感知 性 

不 可 感知 性 是 指 戏 人 水 印 后 的 复合 载体 数据 与 原始 载体 数据 之 间 的 相似 性 。 载 体 作品 在 嵌 
入 水 印信 息 之 后 在 感知 上 要 达到 一 定 的 要 求 ， 这 个 要 求 并 不 一 定 是 水 印 不 可 见 或 者 可 见 ， 要 根 
据 水 印 的 应 用 场合 来 确定 。 从 水 印 是 否 可 感知 的 角度 来 分 ， 可 以 分 为 可 见 水 印 和 不 可 见 水 印 两 
类 。 例 如 ， 水 印 用 于 隐藏 信息 时 要 求 不 可 见 ， 但 如 果 作为 可 见 标记 使 用 时 ， 则 要 求 可 见 。 

所 谓 不 可 感知 性 ， 是 指 视觉 、 听 觉 或 人 类 的 其 他 感官 上 的 不 感知 性 。 例 如 ， 对 图 像 水 印 而 
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(©) 数字 图 像 与 视频 处 理 


言 ， 因 众人 水 印 而 导致 图 像 的 变化 对 观察 者 的 视觉 系统 来 讲 应 该 是 不 可 察觉 的 ; 数字 水 印 的 存 
在 不 应 明显 干扰 被 保护 的 数据 ， 个 光 响 被 你 数据 有 正 生 使 用 。 最 理想 的 司 锅 古 舍 水 印 图 你 碾 
与 原始 图 像 在 视觉 上 一 模 一 样 ， 至 少 是 人 眼 无 法 区 别 的 ， 这 是 绝 大 多 数 图 像 水 印 算法 所 应 达到 
的 要 求 。 

2. 水 印 容 量 

水 印 容量 ( Capacity) 也 称 和 能 入 率 、 加 载 率 或 者 有 效 载荷 ， 指 的 是 在 单位 时 间 内 或 在 一 个 作 
品 中 最 多 可 以 能 入 水 印 的 比特 数 。 一 般 要 求 水 印 容量 尽量 大 ， 这 样 ， 一 方面 可 以 佣 入 尽量 多 的 水 
印信 息 ， 男 一 方面 当 预 众人 入 的 水 印信 息 较 少时 ， 可 以 采用 纠 错 编码 等 技术 来 减少 水 印 提取 的 误 
码 率 。 

3. 和 鲁 棒 性 ( 稳健 性 或 健壮 性 ) 

数字 水 印 的 鲁 棒 性 〈Robustness) ， 也 称 稳健 性 、 健 壮 性 或 抗 攻击 性 ， 是 指 肯 人 水 印 的 作品 
在 经 历 了 各 种 信号 处 理 或 者 各 种 攻击 后 ， 水 印 系 统 仍 能 够 检测 或 提取 水 印 的 能 力 。 以 图 像 载体 
为 例 ， 常 见 的 操作 包括 空间 滤波 、 0 压缩 、 打 印 和 扫描 ， 以 及 几何 失真 〈 旋 转 、 平 移 和 图 像 
缩放 等 ) 。 这 些 处 理 都 是 非 恶意 攻击 ， 经 过 这 些 处 理 后 水 印 仍 能 被 检测 到 或 提取 出 来 ， 表 明 水 印 
ia 
改动 都 可 以 通过 检测 水 印 来 发 现 并 准确 定位 。 

鲁 棒 性 的 提高 往往 以 降低 不 可 感知 性 和 水 印 容量 为 代价 。 一 般 来 说 ， 鲁 棒 性 、 不 可 感知 性 和 
水 印 容量 三 者 是 相互 制约 的 ,不 可 能 设计 一 个 使 三 者 都 达到 最 优 的 水 印 系统 ， 我 们 只 能 根据 实 
际 需 要 在 三 者 中 进行 折 中 。 例 如 ， 在 设计 和 鲁 棒 水 印 时 ,一般 在 水 印 容量 和 不 可 感知 性 满足 一 定 要 
求 的 情况 ， 尽 量 提高 系统 的 鲁 棒 性 ;而 对 载体 图 像 的 不 可 感知 性 要 求 较 高 时 ， 系 统 的 水 印 容 量 怠 
鲁 棒 性 就 不 可 能 太 高 。 

4. 可 证 明 性 

数字 水 印 所 携带 的 信息 应 该 能 够 被 唯一 地 、 确 定 地 鉴别 ， 从 而 能 够 为 已 经 受到 版 权 保护 的 
数字 产品 的 所 有 权 归 属 提供 完全 可 靠 的 证 据 。 数 字 水 印 算法 应 该 能 够 将 所 有 者 的 有 关 信 息 (如 
注册 的 用 户 号 码 、 产 品 标志 或 有 意义 的 文字 等 ) 移入 被 保护 的 对 象 中 ， 并 且 能 在 需要 的 时 候 将 
这 些 信息 提取 出 来 作为 证 据 。 数 字 水 印 可 以 用 来 判别 对 象 是 否 受 到 保护 ， 并 能 够 监视 被 保护 数 
据 的 传播 、 真 伪 鉴 别 以 及 非法 复制 控制 等 。 这 实际 上 也 是 发 展 水 印 技术 的 基本 动力 。 

5. 安全 性 

数字 水 印 中 的 信息 应 是 安全 的 ， 难 以 被 审改 或 伪造 ， 同 时 ， 有 和 较 低 的 虚 警 率 。 安 全 性 强调 的 
是 在 攻击 者 知道 或 部 分 知道 数字 水 印 算法 (包括 般 入 和 提取 算法 ) 的 情况 下 ， 恶 意 地 进行 各 种 
攻击 操作 ， 试 图 实现 未 经 授权 的 能 入 、 提 取 或 检测 、 删 除 水 印 等 时 ， 依 然 可 以 保证 水 印 的 正确 。 
安全 性 是 以 鲁 棒 性 为 基础 的 ， 对 数字 水 印 进行 对 称 或 非 对 称 加 密 处 理 可 以 禁止 未 经 授权 的 舱 入 、 
提取 和 检测 。 使 用 基于 PN 序列 的 扩 频 技术 ， 可 以 在 一 定 程度 上 阻止 未 经 授权 的 删除 水 印 操作 。 

对 于 视频 数字 水 印 而 言 ， 由 于 视频 是 连续 播放 的 图 像 序 列 ， 其 相 邻 帧 之 间 的 内 容 有 高 度 的 
相关 性 ， 连 续 帧 之 间 存 在 大 量 的 数据 宛 余 ， 使 得 视频 水 印 容易 遭受 帧 平均 、 帧 丢 充 、 帧 交换 等 各 
种 攻击 ， 而 且 目 前 为 了 节约 视频 数据 存储 空间 和 便于 传输 ， 通 常 采用 压缩 格式 ， 视频 水 印 在 很 大 
程度 上 是 与 压缩 编码 紧密 联系 在 一 起 的 ， 因 此 视频 水 印 除了 具有 一 般 水 印 技术 的 特征 外 ， 还 有 
以 下 一 些 特殊 的 要 求 。 

1) 实时 处 理性 。 水 印 的 舱 入 和 检测 提取 算法 复杂 度 不 能 高 ， 必 须 在 短 时 间 内 完成 ， 以 保证 
视频 数据 的 实时 编 解 码 。 

2) 随机 检测 性 。 可 以 在 视频 的 任何 位 置 、 在 短 时 间 内 (不 超过 几 秒 钟 ) 检测 出 水 印 。 在 许 
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多 实际 的 视频 水 印 应 用 当中 ,不 可 能 从 视频 的 开始 位 置 按 播放 顺序 一 步 步 地 检测 出 水 印 ， 而 且 
租 入 水 印 的 视频 也 可 能 遭受 帧 删除 、 帧 重组 等 攻击 ， 因 此 视频 水 印 技术 要 保证 能 够 在 视频 的 任 
何 一 个 位 置 ， 在 一 小 段 视频 图 像 序 列 中 能 够 检测 到 水 印 。 

3) 与 视频 编码 标准 相 结 合 。 视 频数 据 由 于 其 数据 量 极 大 ， 所 以 在 存储 、 传 播 中 通常 先 要 对 
其 进行 压缩 。 如 果 是 在 压缩 视频 中 欧 入 水 印 ， 很 显然 与 视频 的 压缩 编码 标准 相 结 合 ， 如 果 是 在 原 
台 视 频 中 舱 入 水 印 ， 由 于 水 印 钥 入 是 利用 视频 的 元 余数 据 来 携带 信息 ， 而 视频 压缩 编码 则 需要 
除去 视频 中 的 元 余数 据 ， 如 果 不 考虑 视频 压缩 编码 标准 而 盲目 地 租 入 水 印 ， 则 髋 入 的 水 印 很 可 
能 在 编码 过 程 中 就 完全 丢失 了 。 

4) 视频 码 率 的 恒定 性 。 水 印 舱 入 视频 数据 后 不 能 改变 视频 流 的 码 率 ， 必 须 服 从 传输 信道 规 
定 的 带宽 限制 ,否则 将 有 可 能 造成 解码 后 的 视频 图 像 和 声音 的 失 步 ， 降 低 视频 的 质量 。 

5) 育 检测 性 。 视 频 水 印 的 检测 原则 上 不 能 使 用 原始 视频 数据 ， 这 是 因为 在 检测 时 使 用 原始 
视频 数据 会 大 大 增加 运算 的 复杂 度 ， 使 得 水 印 算法 无 法 实现 实时 性 要 求 。 


8.1.3 ”数字 水 印 系统 的 组 成 
一 般 数 字 水 印 的 通用 模型 包括 3 个 基本 模块 : 水 印 的 生成 、 水 印 的 嵌入 和 水 印 的 提取 或 检 


测 ， 如 图 8-1 所 示 。 
原始 载体 对 象 原始 载体 对 象 


水 印 生 成 算法 
水 印 嵌入 子 系 统 隐秘 载体 水 印 提取 子 系统 
图 8-1 数字 水 印 的 通用 模型 


在 数字 水 印 的 生成 阶段 ， 肉 和 算法 的 目标 是 使 数字 水 印 在 不 可 感知 性 、 安 全 可 靠 性 和 和 鲁 棒 
性 之 间 找到 一 个 较 好 的 折 中 。 检 测 阶段 主要 是 设计 一 个 相应 于 嵌入 过 程 的 检测 算法 。 检 测 的 结 
果 或 是 原水 印 〈 如 字符 串 或 图 标 等 ) ， 或 是 基于 统计 原理 的 检验 结果 以 判断 水 印 存在 与 否 。 检 测 
算法 的 目标 是 使 错 判 与 漏 判 的 概率 尽量 小 。 为 了 给 攻击 者 增加 去 除 水 印 的 不 可 预测 的 难度 ， 目 
前 大 多 数 水 印 制作 方案 都 在 嵌入 、 提 取 过 程 中 采用 了 密 钥 ， 只 有 掌握 密 钥 的 人 才能 提取 出 水 印 。 

水 印 众 入 过 程 的 基本 框架 如 图 8-2 所 示 。 

该 系统 的 输入 是 
数字 水 印信 息 (WW)、 
原始 载体 数据 (1) 和 
一 个 可 选 的 私 钥 / 公 钥 
CK) 。 其 中 数字 水 印信 
息 可 以 是 任何 形式 的 te 
数据 ， 如 随机 序列 或 
伪 随 机 序列 、 字 符 或 
栅 格 、 二 值 图 像 、3D 图 8-2 水 印 租 入 过 程 的 基本 框架 
图 像 、 灰 度 图 像 或 彩 
色 图 像 等 。 水 印 生成 算法 〈C) 应 保证 水 印 的 唯一 性 、 有 效 性 、 不 可 逆 性 等 属性 。 数 字 水 印信 
息 (WW) 由 伪 随 机 数 发 生 器 生成 ， 另 外 基于 混沌 的 水 印 生成 方法 也 具有 很 好 的 保密 特性 。 水 


































































可 能 的 攻击 











































数字 水 印信 息 
(WW 





水 印 生成 
算法 (G) 
























原始 载体 数据 (D) 


嵌入 水 印 后 的 
数据 (中 








私 钥 / 公 钼 (K) 








第 8 章 |253 

















网 








Oj 


印 舱 入 时 密 钥 (K) 可 用 来 加 强 安全 性 ， 以 避免 未 授权 的 恢复 和 修复 水 印 。 所 有 的 实用 系统 必 
须 使 用 一 个 密 钥 ， 有 的 甚至 使 用 几 个 密 钥 的 组 合 
水 印 的 符 入 算法 很 多 ， 从 总 体 来 看 可 以 分 为 时 ( 空 s ) 间 域 算法 和 变换 域 算 法 。 具 体 算法 将 
在 后 面 详细 介绍 。 由 图 8-2 可 以 定义 水 印 般 入 过 程 的 通用 公式 为 
Ty =E(1,W,K) (8-1) 


式 中 ， 必 表示 众人 入 水 印 后 的 数据 ( 即 水 印 载体 数据 ); 了 表示 原始 载体 数据 ; 下 表示 水 印 集合 ; 
K 表示 密 钥 集合 。 这 里 密 钥 (K) 是 可 选项 ， 一 般 用 于 水 印信 号 的 再 生 。 

水 印 检测 过 程 的 基本 框架 
如 图 8-3 所 示 。 

由 图 8-3 可 以 定义 水 印 检测 
过 程 的 通用 公式 。 

1) 有 原始 载体 数据 (7) 
时 ， 有 
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待 检测 数据 (7 
遍 =D( TT,,1,K) (8-2) 


估计 水 印 ( 态 )/ 
相似 度 检 测 (Sim) 
Kr 从 
2) 有 原始 数字 水 印 〈 丈 ) 私 钥 / 公 钥 (K) 


时 ， 有 图 8-3 水印 检测 过 程 的 基本 框架 
WW=D( 7,,W,K) (8-3) 
3) 没有 原始 信息 时 ， 有 





W=D( 7,,K) (8-4) 
式 中 ， 色 表示 估计 水 印 ; D 表示 水 印 检 测算 法 ;了 1 表示 在 传输 过 程 中 受到 攻击 后 的 水 印 载体 
数据 。 
检测 水 印 的 手段 可 以 分 为 两 种 : 一 是 在 有 原始 信息 的 情况 下 ， 可 以 做 能 入 信号 的 提取 或 相 
关 性 验证 ; 二 是 在 没有 原始 信息 的 情况 下 ， 必 须 对 和 能 入 信息 进行 全 搜索 或 分 布 假设 检验 等 。 如 果 
言 号 为 随机 信和 号 或 伪 随 机 信号， 证 明 检 测 信号 是 水 印信 和 号 的 方法 一 般 就 是 做 相似 度 检验 。 水 印 
相似 度 检 验 的 通用 公式 为 

















5 <W, 歼 > (8-5) 
Vv <W,W> ”~ < 形 ， 覆 > 


式 中 ， 罗 表示 估计 水 印 ; 丈 表 示 原 始 水 印 ，< .> 表示 内 积 运 算 ; 5, 表示 不 同 信号 的 相似 度 。 
8.1.4 数字 水 印 的 分 类 


数字 水 印 的 分 类 方法 有 很 多 种 ， 分 类 的 出 发 点 不 同 导致 了 分 类 的 不 同 ， 它 们 之 间 既 有 联系 
又 有 区 别 ， 有 的 分 类 方法 还 直接 反映 了 水 印 矢 入 算法 的 不 同 。 目 前 常见 的 分 类 方法 有 如 下 7 种 。 

1) 按 承载 数字 水 印 的 载体 不 同 ， 可 以 将 数字 水 印 划分 为 数字 图 像 水 印 、 数 字音 频 水 印 、 数 
字 视 频 水 印 、 文 本 水 印 以 及 用 于 三 维 网 格 模型 的 网 格 水 印 等 。 随 着 数字 技术 和 多 媒体 技术 的 发 
展 ， 将 会 有 更 多 种 类 的 数字 媒体 出 现 ， 同 时 也 会 产生 更 多 新 的 数字 水 印 技术 。 

2) 按 感知 特性 划分 ， 可 将 数字 水 印 分 为 可 见 数字 水 印 和 不 可 见 数字 水 印 。 更 准确 地 说 应 该 

可 觉察 数字 水 印 和 不 可 觉察 数字 水 印 。 可 觉察 数字 水 印 艇 入 到 媒体 后 会 在 媒体 中 留 下 明显 的 
即 站 主要 用 于 标识 版 权 ， 防 止 非法 使 用 ， 虽 然 降低 了 资料 的 商业 价值 ， 却 不 妨碍 使 用 者 的 使 
用 ， 如 电视 台 的 台 标 等 。 不 可 觉察 数字 水 印 佣 人 到 数字 作品 中 ， 人 的 感 观 不 能 明显 地 觉察 ， 不 影 
响 作 品 的 质量 ， 具 有 较 高 的 使 用 价值 。 
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3) 按 水 印 的 抗 攻击 能 力 分 类 ， 可 以 将 数字 水 印 分 为 鲁 棒 性 数字 水 印 和 ( 半 ) 脆弱 性 数字 水 
印 。 鲁 棒 性 水 印 主 要 是 为 了 解决 数字 版 权 保护 问题 ， 如 DVD 复制 保护 ， 它 要 求 岩 入 的 水 印 能 够 
有 效 抵 抗 各 种 有 意 或 无 意 的 攻击 。 脆 弱 性 水 印 的 提出 主要 是 为 了 解决 自 改 证 明 问题 ， 也 就 是 多 
媒体 信息 的 完整 性 验证 。 数 码 相 机 拍摄 的 图 片 没 有 法 律 效应 ， 原 因 在 于 数字 产品 的 可 编辑 性 。 国 
内 外 学 者 提出 了 可 信赖 数码 相机 概念 ， 在 拍摄 的 同时 ， 加 入 数字 水 印信 息 ， 一旦 图 片 被 算 改 ， 便 
可 根据 提取 出 的 水 印 ， 判 断 是 否 被 算 改 ， 并 且 能 指出 哪个 地 方 被 算 改 ， 从 而 保护 图 片 的 完整 性 ， 
为 数码 相机 的 应 用 拓宽 商业 路 径 ， 也 为 数字 版 权 管 理 提 供 有 效 技 术 支 持 。 

4) 按 数字 水 印 的 骨 入 域 划分 ， 可 以 将 水 印 技术 划分 为 时 /空间 域 数字 水 印 和 频率 域 数字 水 
印 。 时 /空间 域 数 字 水 印 主要 是 通过 直接 修改 媒体 数据 采样 值 的 强度 实现 水 印 柑 入 的 。 这 种 方法 
无 须 对 原始 媒体 进行 变换 ， 计 算 复杂 度 低 ， 实 施 效率 高 ， 有 和 较 好 的 不 可 感知 性 ,但 由 于 可 修改 的 
属性 范围 较 小 ， 生 成 的 水 印 具有 局 部 性 ， 因 而 鲁 棱 性 较 差 。 

频率 域 数 字 水 印 也 叫 变换 域 数 字 水 印 ， 这 类 算法 先 对 原 媒 体 进行 某 种 形式 的 正 交 变 换 ， 在 
变换 得 到 的 系数 上 和 散 入 水 印 ， 再 经 过 相应 的 首 变 换 得 到 含水 印 的 媒体 。 常 用 的 变换 包括 离散 傅 
里 叶 变 换 (DFT) 、 离 散 余弦 变换 ( DCT) 、 离 散 小 波 变换 (DWT) 等 由 于 变换 后 的 媒体 信息 具 
有 能 量 分 布 集中 和 良好 的 分 频 特性 等 优点 ， 易 于 和 人 类 视觉 的 感知 模型 相 适 应 ， 因 而 可 以 方便 
地 调节 水 印 的 不 可 感知 性 和 和 鲁 棒 性 的 平衡 。 此 外 ， 由 于 流行 的 压缩 标准 中 的 核心 算法 都 是 在 频 
率 域 中 进行 的 ， 因 而 对 频率 域 水 印 的 研究 具有 更 加 突出 的 理论 意义 和 应 用 价值 。 

5) 按 数字 水 印 的 内 容 分 类 ， 可 以 将 数字 水 印 划分 为 有 意义 水 印 和 无 意义 水 印 。 有 意义 水 
印 是 指 水印 本 身 也 是 某 个 数字 图 像 (如 商标 图 像 ) 或 数字 音 视 频 片 段 的 编码 。 无 意义 水 印 则 
只 对 应 于 一 个 序列 号 。 有 意义 的 水 印 的 优势 在 于 : 当 媒 体 水 印 化 信息 受到 攻击 或 其 他 原因 致 
使 解码 后 的 水 印 破 损 时 ， 人 们 仍然 可 以 通过 视觉 观察 确认 是 否 含有 水 印 。 但 对 于 无 意义 水 印 
来 说 ， 如 果 人 解码 后 的 水 印 序 列 有 若干 码 元 错误 ， 则 只 能 通过 统计 决策 的 方法 来 确定 信号 中 是 
否 含有 水 印 。 

6) 按照 数字 水 印 的 检测 提取 过 程 是 否 需 要 原始 媒体 信息 ， 可 以 将 数字 水 印 划分 为 无 源 检测 
水 印 、 有 源 检测 水 印 和 半 源 检测 水 印 。 

无 源 检测 水 印 也 叫 讶 检测 水 印 。 水 印 的 检测 和 提取 由 含水 印 的 待 测 媒体 本 身 确定 ， 而 不 需 
要 原始 媒体 的 参与 。 这 种 水 印 的 检测 可 以 在 任何 拥有 检测 环境 的 平台 上 进行 ， 使 用 范围 较 广 。 但 
此 类 算法 常常 选取 数据 的 固有 特征 进行 水 印 的 租 入 和 检测 ， 在 数据 固有 特征 被 破坏 时 ， 水 印 检 
测 较 为 困难 ， 生 成 水 印 的 鲁 棒 性 不 高 。 

有 源 检测 水 印 也 叫 非 育 检测 水 印 。 水 印 的 检测 和 提取 是 在 分 析 原 始 媒体 数据 与 含水 印 媒 体 
数据 差别 的 基础 上 进行 的 ， 检 测 和 提取 过 程 必须 在 原 媒体 的 参与 下 完成 。 这 类 水 印 技术 可 能 人 
水 印 的 位 置 选择 范围 较 大 ， 可 以 充分 考虑 到 水 印 的 鲁 棒 性 和 不 可 感知 性 ， 生 成 水 印 的 鲁 棒 性 较 
好 。 但 由 于 水 印 检测 和 提取 必须 提供 原 媒 体 ， 因 而 一 定 程度 地 限制 了 它 的 应 用 。 

半 源 检测 水 印 也 叫 半 育 检测 水 印 。 水 印 的 检测 无 须 原始 媒体 数据 ， 但 是 需要 某 些 与 原始 媒 
体 数 据 有 关 的 信息 ， 这 些 信息 可 能 是 原始 数据 内 人 水 印 时 的 某 些 参量 ， 也 可 能 是 表征 原始 数据 
某 些 特征 的 信息 。 

7) 按照 水 印 的 用 途 分 类 ， 可 以 将 水 印 划 分 为 版 权 保护 水 印 、 认 证 水 印 和 访问 控制 水 印 等 。 
版 权 保 护 水 印 是 目前 研究 最 多 的 一 类 水 印 ， 版 权 保 护 水 印 要 求 水 印 具 有 较 好 的 隐藏 性 和 和 鲁 棒 性 。 
认证 水 印 是 一 种 脆弱 性 水 印 ， 其 目的 是 标识 载体 数据 的 完整 性 和 真实 性 。 访 问 控制 水 印 是 在 媒 
体 中 通过 般 入 水 印 ， 引 入 不 同 级 别 的 扰动 。 访 问 时 必须 先 提出 水 印 ， 恢 复 扰动 才能 获得 不 失真 的 
媒体 。 
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(©) 数字 图像 与 视频 处 理 





























8.2 数字 图 像 水 印 算法 


8.2.1 最 低 有 效 位 方法 

较 早 的 数字 水 印 算法 从 本 质 上 来 说 都 是 在 空 /时 间 域 上 进行 的 ， 数 字 水 印 直 接 加 载 在 数据 
上 ， 使 用 最 多 的 空间 域 算法 是 最 低 有 效 位 (Least Significant Bit，LSB) 方法 ,这 是 一 种 典型 的 空 
间 域 数据 隐藏 算法 ， 其 原理 就 是 通过 修改 表示 数字 图 像 的 颜色 (或 颜色 分 量 ) 的 位 平面 ， 调 整 
数字 图 像 中 对 感知 不 重要 的 像素 来 表达 水 印 的 信息 ， 达 到 能 入 水 印 的 目的 。 

以 图 像 数据 而 言 ， 一 幅 图 像 的 每 个 像素 是 以 多 比特 的 方式 构成 的 ， 在 灰 度 图 像 中 ， 每 个 像素 
通常 为 8 位 ; 在 真 彩色 图 像 (RGB 方式 ) 中 ， 每 个 像素 为 24 位 ， 其 中 R、G、B 三 色 各 为 8 位 ， 
每 一 位 的 取 值 为 0 或 1。 在 数字 图 像 中 ， 每 个 像素 的 各 个 位 对 图 像 的 贡献 是 不 同 的。 对 于 8 位 的 
灰 度 图 像 ， 每 个 像素 的 数字 g 可 用 公式 表示 为 






































g = 2 02 (8-6) 


式 中 ,i 代表 像素 的 第 几 位 ;6b, 表示 第 i 位 的 取 值 ，5,e 10,1}。 这 样 ， 把 整个 图 像 分 解 为 8 个 位 
平面 ， 从 最 低 有 效 位 LSB (位 0) 到 最 高 有 效 位 MSB (位 7)。 从 位 平面 的 分 布 来 看 ， 随 着 位 平 
面 从 低位 到 高 位 ( 即 从 位 平面 0 到 位 平面 7)， 位 平面 图 像 的 特征 逐渐 变 得 复杂 ， 细 节 不 断 增 加 。 
到 了 比较 低 的 位 平面 时 ， 单纯 从 一 幅 位 平面 上 已 经 逐渐 不 能 看 出 测试 图 像 的 信息 了 。 由 于 低位 
所 代表 的 能 量 很 少 ， 改 变 低位 对 图 像 的 质量 没有 太 大 的 影响 。 最 低 有 效 位 方法 正 是 利用 这 一 点 
在 图 像 低 位 隐藏 人 水 印信 息 。 图 8-4a ~ 图 8-4i 分 别 为 原始 camera 图 及 其 从 高 位 到 低位 的 8 个 位 
平面 。 
基本 LSB 方法 的 水 印 舱 入 过 程 主要 分 为 以 下 3 步 。 

QQ 将 原始 图 像 的 像素 值 由 十 进 制 转换 成 二 进 制 。 

@) 用 二 进 制 水 印信 息 中 的 每 一 比特 信息 替换 与 之 相对 应 图 像 载 体 数据 的 最 低 有 效 位 。 

@) 将 得 到 的 含水 印 的 二 进 制 数 据 转换 为 十 进 制 像素 值 ， 从 而 获得 含水 印 的 图 像 。 

水 印信 息 的 提取 过 程 很 简单 ， 只 需要 将 含水 印 图 像 的 对 应 像素 值 转换 为 二 进 制 形式 ， 然 后 
提取 最 低 有 效 位 即 可 ， 因 此 它 可 以 实现 讶 检测。 也 正 因 这 样 ， 水 印信 息 很 容易 被 恶意 地 提取 出 
来 ， 如 果 对 待 铭 入 的 水 印信 息 事 先 置 乱 则 可 以 克服 这 个 不 足 。 

从 对 基本 LSB 水 印 算法 的 描述 来 看 ，LSB 算法 的 能 入 过 程 与 提取 过 程 都 很 简单 ， 也 正 是 它 的 
简单 决定 了 其 自身 的 一 些 缺 陷 。 

1) 最 低 有 效 位 相对 不 重要 ， 因 此 在 其 中 矢 入 的 水 印信 息 对 噪声 的 抵抗 能 力 差 。 

2) 由 于 仅仅 选择 了 最 低 有 效 位 来 嵌入 水 印 ， 一 个 像素 仅 能 人 能 入 1bit 信息 ， 并 且 肯 和 位置 确 
定 ， 容 易 遭 受 攻击 。 

尽管 如 此 ， 由 于 LSB 方法 实现 简单 ， 水 印 容量 比较 大 ， 很 多 学 者 基于 LSB 算法 的 基本 思想 ， 
提出 了 很 多 改进 的 LSB 算法 和 广义 的 LSB 算法 。 例 如 ， 在 舰 入 水 印 时 根据 图 像 载体 像素 所 在 行 、 
列 的 奇偶 性 的 不 同 ， 选 择 不 同 的 有 效 位 来 钥 入 水 印 。 对 于 奇数 行 ， 用 水 印 痊 换 该 行 奇 数位 置 像素 
最 低 有 效 位 ; 对 于 偶数 行 ， 用 水 印 蔡 换 该 行 偶数 位 置 像素 的 最 低 有 效 位 ; 对 于 奇数 列 ， 用 水 印 蔡 
换 该 列 偶数 位 置 像素 的 最 低 有 效 位 ; 对 于 偶数 列 ， 用 水 印 替 换 该 列 奇数 位 置 像素 的 最 低 有 效 位 。 

由 于 LSB 方法 所 实现 的 水 印 是 脆弱 的 ， 无 法 经 受 一 些 常见 的 信号 处 理 操 作 。 在 进行 数字 
图 像 处 理 和 图 像 变 换 后 ， 图 像 的 低位 非常 容易 改变 ， 攻 击 者 只 需 通过 简单 的 删除 图 像 低位 数 
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数字 水 外 红 术 ©) 


据 或 者 对 数字 图 像 进 
行 某 种 简单 数学 变换 
就 可 将 艇 入 的 水 印信 
息 滤 除 或 破坏 掉 。 因 
此 ，LSB 方案 更 多 地 
应 用 于 如 完整 性 认证 
等 需要 使 用 脆弱 水 印 
和 半 脆 弱 水 印 的 场 。a 原 始 camera 图 256 级 灰 度 ) b) 位 平面 7 
合 。 脆 弱 水 印 的 目的 
是 标识 载体 信号 的 完 
整 性 和 真实 性 ， 对 任 
何 恶意 和 非 恶意 的 攻 
击 越 敏感 越 好 ; 半 脆 
弱 水 印 则 能 容忍 一 定 
剖 度 的 和 见 梢 呈 处理 
操作 ， 能 检测 出 对 多 d) 位 平面 5 e 位 平面 4 
院 体 涩 各 是 省 恶意 
算 改 ， 可 以 定位 算 改 
区 域 ,甚至 判断 算 改 
方式 以 及 恢复 出 被 算 
改 的 数据 。 很 多 情况 
下 ， 需 要 将 脆弱 水 印 
































与 签名 技术 结合 使 
用 ,以 满足 应 用 需 加 位 平面 旧 位 平面 1 站 位 平面 0 
求 。 例 如 ， 首 先 对 需 图 8-4 原始 camera 图 及 其 8 个 位 平面 

















要 进行 保护 的 内 容 按 
照 一 定 的 规则 进行 划分 〈 一 般 分 成 不 重合 的 两 个 区 域 ) ， 然 后 在 其 中 一 个 区 域 进行 签名 ， 最 后 
采用 脆弱 水 印 技术 将 签名 信息 作为 水 印信 息 暴 入 另 一 个 区 域 中 ， 其 中 的 签名 用 于 解决 认证 


问题 。 
8.2.2 基于 DCT 域 的 方法 


在 空间 域 中 加 入 水 印 的 算法 只 能 能 入 少量 的 数据 ， 并 且 大 部 分 算法 引入 的 都 是 类 似 高 频 噪 
声 的 水 印 ， 很 容易 经 过 低 通 滤 波 ， 重 新 量化 或 有 损 压 缩 等 操作 后 而 去 除 水 印 。 而 在 图 像 的 频率 域 
中 能 入 水 印 时 ， 可 以 提高 水 印 的 鲁 棒 性 。 频 率 域 水 印 算法 首先 利用 离散 余弦 变换 (DCT) 、 离 散 
小 波 变换 (DWT) 和 离散 传 里 叶 变换 (DFT) 等 方法 将 数字 图 像 的 空间 域 数 据 变换 为 相应 的 频 
率 域 系数 ， 然 后， 根据 待 隐藏 的 信息 类 型 ， 对 其 进行 适当 的 编码 ， 生 成 水 印信 息 ; 确定 某 种 规则 
或 算法 ， 用 水 印信 息 的 相应 数据 去 修改 选 定 的 频率 域 系数 ; 最 后 ， 将 数字 图 像 的 频率 域 系 数 经 相 
应 的 反 变 换 转化 为 空间 域 数据 。 

1. 水 印 的 散 入 

基于 DCT 的 数字 图 像 水 印 般 入 过 程 如 下 。 

(1) 将 原始 载体 图 像 按 8 x8 大 小 进行 分 块 
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为 了 与 图 像 压 缩编 码 标准 兼容 ， 以 便 水 印 能 入 算法 可 以 在 压缩 域 中 实现 ， 将 原始 图 像 分 制 
为 互 不 重合 的 8 x8 子 块 ， 以 8 x8 子 块 为 单元 进行 DCT 变换 。 

(2) 选择 nn 个 方差 值 大 的 子 块 

为 了 实现 在 载体 图 像 中 构 入 水 印 后 的 不 可 感知 性 ， 应 该 将 水 印信 息 尽 可 能 地 可 入 图 像 中 纹 
理 较 复 杂 的 子 块 。 这 里 将 图 像 子 块 的 方差 值 oo 作为 衡量 子 块 纹理 的 复杂 程度 。 方差 oo 的 大 小 反 
映 了 图 像 子 块 的 平滑 程度 。 当 e- 较 小 时 ， 认 为 图 像 子 块 比较 均匀 ;反之 ， 则 认为 图 像 子 块 包含 
着 较为 复杂 的 纹理 或 边缘 。 当 将 过 多 的 信息 舱 入 图 像 的 平滑 区 域 ， 容 易 引 起 块 效应 现象 ， 导 致 图 
像 质 量 的 下 降 。 所 以 ， 将 水 印信 息肉 入 纹理 复杂 区 域 符合 人 眼 视觉 系统 的 特性 。 
(3) 选择 水 印信 息 的 舱 入 位 置 
根据 人 眼 视觉 系统 的 特性 ， 人 眼 对 位 于 低频 部 分 的 噪声 
相对 敏感 ， 为 了 使 水 印 不 易 被 察觉 ， 应 将 水 印信 息 藤 入 到 较 高 
频率 的 DCT 系数 中 ; 然而 将 水 印信 息 藤 入 到 DCT 高 频 系数 中 ， 
又 会 因 量化 、 低 通 滤波 等 处 理 而 丢失 信息 ， 影 响 水 印 的 鲁 棒 
性 。 为 了 解决 DCT 低频 和 高 频 系 数 的 矛盾 ， 这 里 采用 折 中 的 
办 法 ， 将 水 印信 息肉 入 到 载体 图 像 的 DCT 中 频 系数 中 。 图 8-5 
示例 了 8 x8 块 DCT 中 频 系数 的 位 置 (灰色 方 格 ) 。 

(4) 瞬 入 水 印信 息 并 进行 分 块 DCT 逆 变 换 
定 合适 的 DCT 中 频 系数 位 置 后 做 入 水 印信 息 ， 最 后 
通过 子 块 的 DCT 逆 变 换 生 成 含水 印 的 图 像 。 

2. 水 印 的 提取 

基于 DCT 的 数字 水 印 提取 过 程 如 下 。 

1) 对 原始 图 像 和 待 测 图 像 分 别 进行 分 块 DCT， 并 比较 相关 性 ， 以 确定 序列 watermark_vector。 

2) 根据 图 像 块 的 方差 值 的 大 小 ， 确 定 纹理 块 ， 从 而 确定 水 印 曾 经 的 恋人 位 置 。 

3 ) 与 内 入 时 的 步骤 相似 ， 根据 序列 watermark_vector 以 及 纹理 块 复杂 度 的 次 序 形成 一 维 水 印 序列 。 

4) 将 水 印 序列 重新 组 成 二 维 水 印 恢复 图 像 ， 并 据 此 进行 图 像 的 版 权 认证 。 


8.3 ”数字 视频 水 印 的 艇 入 和 提取 方案 


视频 水 印 技 术 是 在 静止 图 像 水 印 技术 的 基础 上 逐渐 发 展 起 来 的 ， 最 初 视 频 水 印 是 将 视频 看 
作 一 个 个 单独 的 帧 构成 的 图 像 序列 ， 再 运用 图 像 水 印 的 方法 能 入 水 印 。 这 种 方法 的 缺点 是 它 没 
有 考虑 到 视频 在 短 时 间 内 帧 内 容 高 度 相 关 的 这 个 特性 ,水印 很 容易 被 帧 平均 的 方法 去 除 。 现 在 
已 经 有 许多 针对 视频 水 印 不 同 应 用 而 提出 的 视频 水 印 算法 。 由 于 数字 视频 编 解码 系统 与 静止 图 
像 编 解 码 的 不 同 ， 视 频 水 印 的 舱 入 、 提 取 过 程 和 图 像 水 印 的 钥 入 、 提 取 过 程 有 很 大 的 不 同 ， 数 字 
视频 水 印 的 僚 和 方案 可 以 分 为 在 未 压缩 的 原始 视频 中 藤 和 人 、 在 视频 编 解码 器 中 能 入 和 在 压缩 后 
的 视频 码 流 中 岁入 ， 图 8-6 所 示 为 视频 水 印 模型 的 几 种 岩 入 和 提取 方案 。 


像 己 视频 处 理 
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图 8-5 8x8 块 DCT 中 频 系 数 的 位 置 















































原始 重建 
这 由 
水 印 幅 入 水 印 幅 入 水 印 嵌 入 水 印 提取 水 印 提取 水 印 提取 
方案 1 方案 2 方案 3 方案 3 方案 2 方案 1 


图 8-6 视频 水 印 误 入 和 提取 方案 
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8.3.1 基于 未 压缩 的 原始 视频 的 水 印 方案 


此 类 方案 将 数字 水 印 直 接 艇 入 未 经 过 压缩 编码 的 原始 视频 图 像 序列 中 ， 然 后 再 对 含有 水 印 
言 息 的 视频 图 像 进 行 编码 压缩 。 这 类 方案 可 以 充分 利用 静止 图 像 的 数字 水 印 技 术 和 策略 ， 结 合 
视频 帧 的 结构 特点 ， 形 成 适用 于 视频 水 印 的 方案 。 

这 类 方案 的 优点 是 水 印 算法 比较 成 熟 ， 原 则 上 图 像 水 印 方案 均 可 应 用 于 此 ， 有 和 鲁 棒 性 水 印 
和 及 弱 性 水 印 等 ， 可 用 于 多 种 目的 。 但 也 有 明显 的 缺点 ， 即 会 增加 视频 码 流 的 数码 率 ， 影 响 视频 
码 率 的 恒定 性 ; 能 入 水 印 后 的 视频 数据 经 压缩 编码 后 有 可 能 丢失 部 分 水 印信 息 ， 给 水 印 的 提取 
和 检测 带 来 不 便 ; 对 于 已 压缩 的 视频 ， 需 要 先进 行 解码 ， 然 后 做 和 水印 后 再 重新 编码 ， 增 加 了 计 
算 的 复杂 度 并 降低 了 视频 的 质量 。 

按照 水 印 散 入 域 不 同 ， 此 类 水 印 又 可 分 成 空间 域 水 印 和 变换 域 水 印 两 种 方法 。 

1. 空间 域 水 印 方案 

空间 域 水 印 方案 是 指 直 接 将 水 印 葵 入 在 原始 视频 数据 中 ， 一 般 是 般 入 在 亮度 分 量 上 ， 也 有 
的 是 般 入 在 色 度 分 量 中 。 

空域 水 印 的 优点 是 复杂 度 低 ， 计 算 简单 ， 但 鲁 棒 性 和 不 可 感知 性 较 之 变换 域 水 印 要 差 些 。 

2. 变换 域 水 印 方案 

变换 域 水印 方 案 一 般 是 将 视频 看 成 一 个 三 维 信号 (两 维 在 空间 上 ， 一 维 在 时 间 上 ) ， 水 印 藤 
入 在 三 维 变 换 域 中 。 常 用 的 变换 域 有 DCT 域 、DFT 域 、DWT 域 、 哈 达 玛 变换 域 等 。 

三 维 变换 的 一 个 缺点 是 运算 量 大 。 当 然 ， 随 着 处 理 器 速度 的 提高 ， 在 实时 性 要 求 不 大 高 的 情 
况 下 是 可 以 满足 速度 要 求 的 。 


8.3.2 基于 视频 编码 的 水 印 方案 


此 类 方案 是 在 编码 压缩 时 散 入 水 印 。 当 今 视频 压缩 的 标准 包括 ISOAIEC 的 MPEG-x 和 ITU-T 
的 H.26x， 它 们 的 基本 编码 思想 是 运动 补 傍 预 测 和 基于 块 的 变换 编码 。 在 编码 压缩 时 舱 入 水 印 ， 
可 以 直接 与 视频 编码 器 相 结合 ， 利 用 视频 数据 压缩 的 原理 ， 一 般 是 通过 修改 编码 阶段 的 DCT 域 
中 的 量化 系数 ,结合 人 类 视觉 特性 艇 入 水 印 。 水 印 的 舱 和 人 和 提取 过 程 是 在 视频 编 解码 器 中 进行 ， 
适用 于 可 以 直接 介入 视频 编码 过 程 的 情况 。 例 如 ， 采 用 自己 的 编码 器 ， 对 摄像 头 捕捉 的 原始 视频 
流 进 行 编码 。 这 一 方案 虽然 增加 了 引入 水 印 算法 的 局 限 性 ， 一 旦 水 印信 息 共 入 编码 码 流 中 ， 在 上 
述 的 编 解码 过 程 后 可 能 对 视频 信号 质量 产生 不 良 影响 。 但 是 ， 由 于 该 方案 一 般 是 通过 调制 DCT 
或 量化 之 后 的 系数 完成 信息 能 和 人 过程， 因此 便于 通过 自 适应 的 机 制 分 配 隐藏 信息 到 视频 信和 号 中 ， 
并 依据 人 的 视觉 特性 进行 调制 ， 在 得 到 较 好 的 主观 视觉 质量 的 同时 得 到 较 强 的 抗 攻击 能 力 。 此 
类 方案 的 优点 是 水 印 仅 能 入 在 DCT 系数 中 ， 不 会 增加 数码 率 ; 易 设 计 出 抗 多 种 攻击 的 水 印 。 缺 
点 是 会 降低 视频 的 质量 ， 因 为 一 般 它 也 有 一 个 解码 一 般 入 一 再 编码 的 过 程 ; 存在 误差 积累 ， 仙 入 
的 水 印 数据 量 低 ， 没 有 成 熟 的 三 维 时 空 视 觉 隐 蔽 模型 。 
8.3.3 ”基于 压缩 视频 码 流 的 水 印 方案 

在 压缩 域 中 骨 入 水 印 ， 即 直接 将 水 印信 息 能 入 编码 压缩 后 的 比特 流 中 。 这 种 方案 的 显著 优 
点 是 没有 解码 和 再 编码 的 过 程 ， 因 而 不 会 造成 视频 质量 的 下 降 ， 同 时 计算 复杂 度 较 低 。 其 缺点 是 
由 于 压缩 数码 率 的 限制 而 限定 了 艇 入 水 印 数据 量 的 大 小 ， 骨 入 水 印 的 强度 受 视频 解码 误差 的 约 
束 ， 骨 人 策略 受 相应 视频 压缩 算法 和 编码 标准 的 限制 。 有 些 学 者 提出 了 一 种 通过 修改 视频 流 中 
的 可 变 长 度 编码 (VLC) 以 隐藏 水 印信 息 的 算法 ， 这 种 算法 充分 利用 了 视频 压缩 编码 标准 ， 无 须 
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(©) 数字 图像 与 视频 处 理 


对 压缩 的 视频 流 完 全 解码 再 编码 ， 计 算 复杂 度 小 ， 授 入 水 印 的 速率 相对 较 高 ， 但 其 缺点 是 对 信道 
干扰 和 视频 处 理 的 抵抗 能 力 较 差 ， 按 同样 的 算法 在 可 标记 的 VLC 码 幅 度 值 的 最 不 重要 位 上 加 入 
随机 比特 就 可 以 破坏 水 印 ， 传 统 的 滤波 、 重 采样 和 时 间 域 缩放 等 处 理 也 会 影响 水 印 的 提取 。 目 前 
也 有 些 算法 提出 在 运动 矢量 中 骨 入 水 印 ， 将 水 印 舱 入 在 幅度 值 大 且 相 角 变化 小 的 运动 矢量 中 ， 
在 压缩 视频 序列 中 ， 大 部 分 的 帧 是 运动 补偿 预测 编码 帧 ， 所 以 在 运动 矢量 中 隐藏 水 印信 息 可 以 
更 加 有 效 地 利用 视频 比特 流 中 的 信息 。 

上 面 介 绍 的 视频 水 印 都 是 基于 帧 的 视频 水 印 方 案 。 实 际 应 用 中 ， 非 法 使 用 者 常常 并 不 使 用 
整 幅 图 像 〈 帧 ) ， 而 只 是 剪 切 图 像 〈 帧 ) 中 某 些 有 意义 的 对 象 来 非法 使 用 。 由 此 ， 产 生 了 一 种 新 
的 基于 对 象 的 视频 水 印 思想 。 为 了 进一步 提高 视频 压缩 的 效率 ， 人 们 还 提出 了 基于 对 象 的 视频 
压缩 算法 ， 如 MPEG-4。MPEG-4 是 一 种 高 效 的 基于 对 象 的 视频 压缩 标准 ， 有 着 广泛 的 应 用 前 景 ， 
例如 移动 通信 中 的 声 像 业务 、 网 络 环境 下 的 多 媒体 数据 的 集成 以 及 交互 式 多 媒体 服务 等 。MPEC-4 
的 应 用 ， 使 得 对 视频 对 象 的 操作 变 得 更 加 容易 ， 这 样 ， 对 视频 对 象 的 保护 显得 更 为 迫切 了 。 正 因 
为 如 此 ， 基 于 对 象 的 视频 水 印 迅速 成 为 视频 水 印 的 又 一 个 热门 研究 方向 。 


8.4 水 印 的 攻击 方法 和 对 策 


从 数字 水 印 的 应 用 中 可 以 看 出 ， 数 字 水 印 在 认证 、 防 盗版 方面 有 重要 的 应 用 。 然 而 ， 水 印 技 
术 与 密码 术 一 样 ， 是 在 不 断 的 “ 攻 ” 与 “ 防 ” 中 发 展 的 ， 因 此 ， 研 究 数字 水 印 的 攻击 方法 对 于 
数字 水 印 的 发 展 有 着 重要 的 作用 。 

对 数字 水 印 的 攻击 一 般 是 针对 水 印 的 鲁 棒 性 提出 的 要 求 。 数 字 水 印 的 鲁 棒 性 是 指 水 印信 和 号 
在 经 历 多 种 无 意 或 有 意 的 信号 处 理 后 ， 仍 能 保持 完整 性 或 仍 能 被 准确 鉴别 的 特征 。 标 准 数据 处 
理 是 指数 据 (特别 是 数字 作品 ) 经 过 数据 发 布 渠道 ， 如 编辑 、 打 印 、 增 强 、 格 式 转 换 等 的 过 程 。 
攻击 是 指 那 些 带 有 损害 性 、 毁 坏 性 的 ， 或 者 试图 移 去 水 印信 号 的 处 理 过 程 。 和 鲁 棱 性 好 的 水 印 应 该 
能 够 抵抗 各 种 水 印 攻击 行为 。 在 这 里 我 们 只 考虑 那些 并 不 严重 导致 载体 数据 失真 的 攻击 方法 。 
按照 攻击 后 的 水 印 作 品 具有 的 商业 价值 可 以 将 攻击 分 类 为 : 成 功 的 攻击 和 毁坏 性 的 攻击 。 
一 种 成 功 的 攻击 可 以 为 攻击 者 创造 商业 价值 。 它 能 够 把 水 印 前 弱 到 无 法 恢复 和 提取 的 地 步 ， 同 
时 攻击 后 的 载体 数据 只 有 一 些 少许 的 变动 ， 不 影响 载体 数据 的 商业 价值 。 这 是 实际 应 用 中 最 需 
要 考虑 进行 对 抗 的 攻击 。 而 毁坏 性 攻击 无 法 为 攻击 者 创造 良好 的 商业 价值 ， 但 是 它 可 以 起 到 破 
坏 的 作用 ， 影 响 数字 水 印 的 实际 应 用 ， 在 某 些 情况 下 也 需要 考虑 。 
按照 攻击 原理 可 以 将 攻击 分 为 四 类 : 简单 攻击 、 同 步 攻 击 、 排 除 攻 击 和 混淆 攻击 。 


8.4.1 简单 攻击 及 对 策 


简单 攻击 是 试图 对 整个 水 印 化 数据 ( 骨 入 水 印 后 的 载体 数据 ) 进行 操作 来 削弱 内 和 的 水 印 
的 幅度 〈 而 不 是 试图 识别 水 印 或 分 离 水 印 ) ， 导 致 数字 水 印 提取 发 生 错 误 ， 甚 至 根本 提取 不 出 水 
印信 和 号。 常见 的 操作 有 线性 滤波 、 通 用 非 线 性 滤波 、 压 缩 (JPEG、MPEG ) 、 添 加 噪声 、 漂 移 、 
像素 域 量化 、 数 模 转 换 、Y 修正 等 。 

简单 攻击 中 的 操作 会 给 水 印 化 数据 造成 类 噪声 失真 ， 在 水 印 提取 和 校 验 过 程 中 将 得 到 一 个 失 
真 、 变 形 的 水 印信 号 。 可 以 采用 两 种 方法 抵抗 这 种 类 噪声 失真 : 增加 和 骨 入 水印 的 幅度 和 宛 余 谍 入 。 

通过 增加 般 入 水 印 幅 度 的 方法 ， 可 以 大 大 地 降低 攻击 产生 的 类 噪声 失真 现象 ， 在 多 数 应 用 
中 是 有 效 的 。 艇 入 的 最 大 容许 幅度 应 该 根据 人 类 视觉 特性 决定 ， 不 能 影响 水 印 的 不 可 感知 性 。 

元 余 垦 入 是 一 种 更 有 效 的 对 抗 方法 。 在 空间 域 上 可 以 将 一 个 水 印信 号 多 次 髋 入 ,采用 大 多 
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数 投票 制度 实现 水 印 提取 。 男 外 ， 采 用 错误 校 验 码 技 术 进 行 校 验 ， 可 以 更 有 效 地 根除 攻击 者 产生 
的 类 噪声 失真 。 元 余 舱 入 可 能 会 影响 水 印 数据 般 入 的 比特 ， 实 际 应 用 中 应 该 折 中 这 种 鲁 棒 性 和 
增加 水 印 数据 迄 入 比率 两 者 之 间 的 矛盾 


8.4.2 同步 攻击 及 对 策 


同步 攻击 是 试图 破坏 恤 体 数据 和 水 印 的 同步 性 ， 即 试图 使 水 印 的 相关 检测 失效 或 使 恢复 说 入 的 
水 印 成 为 不 可 能 。 被 攻击 的 数字 作品 中 水 印 仍然 存在 ， 而 且 幅 度 没有 变化 ， 但 是 水 印信 号 已 经 错 
位 ， 不 能 维持 正常 水 印 提取 过 程 所 需要 的 同步 性 。 这 样 ， 水 印 提取 器 就 不 可 能 或 者 无 法 实行 对 水 印 
的 恢复 和 提取 。 同 步 攻击 通常 采用 几何 变换 方法 ， 如 缩放 、 空 间 方向 的 平移 、 时 间 方向 的 平移 ( 视 
频数 字 作品 ) 、 旋 转 、 剪 切 、 像 素 置换 、 二 次 抽样 化 、 像 素 或 者 像素 侯 的 插入 或 抽取 等。 

同步 攻击 比 简单 攻击 更 加 难以 防御 。 因 为 同步 攻击 破坏 水 印 化 数据 中 的 同步 性 ， 使 得 水 印 
嵌入 和 水 印 提取 这 两 个 过 程 不 对 称 。 而 对 于 大 多 数 水 印 技术 ， 水 印 提取 器 都 需要 事先 知道 嵌入 
水 印 的 确切 位 置 。 这 样 ， 经 过 同步 攻击 后 ， 水 印 将 很 难 被 提取 出 来 。 因 此 ， 在 对 抗 同步 攻击 的 策 
略 中 ， 应 该 设法 使 得 水 印 的 提取 过 程 变 得 简单。 

同步 攻击 可 能 只 使 用 一 种 简单 的 几何 变换 ， 例 如 剪 切 、 平 移 等 。 在 有 源 提取 的 情况 下 ， 可 以 将 
源 载体 数据 和 水 印 化 数据 相 比较 ， 得 到 水 印 化 数据 章 受 的 几何 变换 的 种 类 和 区 域 ， 进 而 可 以 消除 和 
同化 几何 学 上 的 失真 。 在 无 源 提取 的 情况 下 ， 只 能 采用 穷 举 的 方法 ， 尝 试 使 用 所 有 可 能 的 处 理 ， 将 
被 攻击 的 数据 翻转 过 来 。 这 种 穷 举 的 方法 在 遇 到 复杂 的 同步 攻击 的 情况 下 ， 计 算 将 成 为 不 可 能 。 

比较 可 取 的 对 抗 同 步 攻击 的 对 策 是 在 载体 数据 中 嵌入 一 个 参照 物 。 在 提取 水 印 时 ， 先 对 参 
照 物 进行 提取 ， 得 到 载体 数据 所 有 经 历 的 攻击 的 明确 判断 ， 然 后 对 载体 数据 依次 进行 反 转 处 理 。 
这 样 可 以 消除 所 有 同步 攻击 的 影响 。 到 目前 为 止 ， 最 复杂 的 同步 攻击 是 基于 Jittering 的 ， 它 也 党 
常 被 用 来 衡量 一 个 水 印 技术 是 否 真正 实用 。jittering 攻击 将 数据 切割 、 除 去 、 复 制 和 组 合 ， 那 么 ， 
攻击 后 的 数字 作品 将 只 有 很 细微 的 改变 ， 甚 至 没有 改变 。 已 有 实验 证 明 ， 这 种 攻击 能 非常 有 效 地 
破坏 大 多 数 水 印 算法 中 正常 的 水 印 提取 过 程 。 例 如 ，Jittering 攻击 主要 用 于 对 音频 信号 数字 水 印 
系统 的 攻击 ， 一 般 实现 方法 是 ， 首 先 将 信号 数据 分 成 500 个 采样 点 为 一 个 单位 的 数据 块 ， 然 后 在 
每 一 个 数据 块 中 随机 复制 或 删除 一 个 采样 点 ， 来 得 到 499 或 501 个 采样 点 的 数据 块 ， 接 着 再 将 数据 
块 按 原来 顺序 重新 组 合 起 来 ， 这 种 改变 即使 对 古典 音乐 信号 数据 也 几乎 感觉 不 到 ， 但 是 却 可 以 非常 
有 效 地 阻止 水 印信 号 的 检测 定位 ， 以 达到 难以 提取 水 印信 号 的 目的 。 类 似 的 方法 也 可 以 用 来 攻击 图 
像 数据 的 数字 水 印 ， 其 实现 方法 也 非常 简单 ， 即 只 要 随机 地 删除 一 定数 量 的 像素 列 ， 然 后 用 另外 的 
像素 列 补 齐 即 可 ， 该 方法 虽然 简单 ， 但 是 仍 能 有 效 破坏 水 印信 号 存在 的 检验 。 

针对 这 种 特殊 攻击 的 对 策 是 存在 的 。 对 于 部 分 水 印 算法 ， 在 水 印 提取 过 程 前 ， 对 攻击 后 的 数 
字 作 品 进行 适当 的 低频 过 滤 ， 可 以 消除 Jittering 攻击 带 来 的 影响 。 


8.4.3 排除 攻击 及 对 策 


排除 攻击 (Removal attacks) 试图 通过 分 析 水 印 化 数据 ， 估 计 图 像 中 的 水 印 ， 将 水 印 化 数据 
分 离 成 为 载体 数据 和 水 印信 号 ， 然 后 排除 水 印 ， 得 到 没有 水 印 的 载体 数据 ， 达 到 非法 盗用 的 目 
的 。 和 常见 的 方法 有 共 谋 攻击 ( Collusion attacks) 、 去 噪 、 确 定 的 非 线性 滤波 、 采 用 图 像 综合 模 
型 的 压缩 (如 纹理 模型 或 者 3D 模型 等 ) 。 针 对 特定 的 加 密 算 法 在 理论 上 的 缺陷 ， 也 可 以 构造 出 
对 应 的 排除 攻击 。 

在 一 些 水 印 应 用 系统 中 ， 同 一 数字 产品 被 徐 人 不 同 的 水 印信 号 ， 这 使 得 攻击 者 有 可 能 逼近 
或 恢复 原始 数据 ， 例 如 在 视频 水 印 算法 中 ， 每 一 帧 被 谱 和 人 了 不 同 的 水 印信 号 ， 如 果 攻 击 者 掌握 了 
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足够 多 的 数据 集 ， 便 可 通过 平均 法 使 得 水 印 系统 无 法 检测 出 水 印信 号 的 存在 。 共 谋 攻 击 通常 采 
用 一 个 数字 产品 的 多 个 不 同 的 水 印 化 复制 实现 。 针 对 这 种 基于 统计 学 的 共 谋 攻击 的 对 策 是 考虑 
如 何 限制 水 印 化 复制 的 数量 。 通 过 实验 发 现 水 印 化 复制 的 数量 少 于 4 个 的 时 候 ， 基 于 统计 学 的 共 
谋 攻 击 将 不 成 功 ， 或 者 不 可 实现 。 

针对 特定 的 水 印 技术 采用 确定 的 信号 过 滤 处 理 ， 可 以 直接 从 水 印 化 数据 中 排除 水 印 。 另 外 ， 
在 知道 水 印 舱 入 程序 和 水 印 化 数据 的 情况 下 ,还 存在 着 一 种 基于 伪 随 机 化 的 排除 攻击 。 其 原理 
是 ， 首 先 根据 水 印 藤 入 程序 和 水 印 化 数据 得 到 近似 的 源 数 据 ， 利 用 水 印 化 数据 和 近似 的 源 数 据 
之 间 的 差异 ， 将 近似 的 源 数 据 进行 伪 随 机 化 操作 ， 最 后 可 以 得 到 不 包含 水 印 的 源 数据 。 为 了 对 抗 
这 种 攻击 ， 必 须 在 水 印信 号 生成 过 程 中 采用 随机 密 钥 加 密 的 方法 。 采 用 随机 密 钥 的 加 密 ， 对 于 水 
印 的 提取 过 程 没 有 影响 ,但 是 基于 伪 随 机 化 的 排除 攻击 将 无 法 成 功 。 因 为 每 次 舱 入 的 水 印 都 不 
同 ， 水 印 认 人 口 将 不 能 确定 出 近似 的 源 数据 来 。 


8.4.4 混 清 攻击 及 对 策 


混 消 攻击 (Ambiguity attacks) 是 试图 生成 一 个 伪 源 数据 、 伪 水 印 化 数据 来 混淆 含有 真正 水 
印 的 数字 作品 的 版 权 ， 由 于 最 早 由 IBM 的 Craver 等 人 提出 ， 也 称 IBM 攻击 。 一 个 例子 是 倒置 攻 
击 ， 虽 然 载 体 数 据 是 真实 的 ， 水 印信 号 也 存在 ,但 是 由 于 般 入 了 一 个 或 多 个 伪造 的 水 印 ， 混淆 了 
第 一 个 含有 主权 信息 的 水 印 ， 失 去 了 唯一 性 。 这 种 攻击 实际 上 使 数字 水 印 的 版 权 保护 功能 受到 
了 挑战 ， 如 何 有 效 地 解决 这 个 问题 正 引 起 研究 人 员 的 极 大 兴 

在 混淆 攻击 中 ， 同 时 存在 伪 水 印 、 伪 源 数据 、 伪 水 印 化 数据 和 真实 水 印 、 真 实 源 数据 、 真 实 
水 印 化 数据 。 要 解决 数字 作品 正确 的 所 有 权 ， 必 须 在 一 个 数据 载体 的 几 个 水 印 中 判断 出 具有 真 
正 主 权 的 水 印 。 一 种 对 策 是 采用 时 间 戳 技术 。 时 间 戳 由 可 信 的 第 三 方 提 供 ， 可 以 正确 判断 谁 第 一 
个 为 载体 数据 加 了 水 印 。 这 样 就 可 以 判断 水 印 的 真实 性 。 

男 一 种 对 策 是 采用 不 可 逆水 印 ( Noninvertible watermark) 技术 。 构 造 不 可 道 的 水 印 技 术 的 方 
法 是 使 水 印 编码 互相 依赖 ， 例 如 使 用 单 向 哈 希 (Hash) 函数 。 


像 己 视频 处 理 





































































































8.5 MATLAB 编程 实例 


【 例 8-1】 请 编写 MATLAB 程序 ， 实 现 基 于 LSB 的 数字 图 像 水 印 算法 。 





解 : 
1 LSB 水 印 租 入 算法 ……………… 
clear all; 
% 读 取 载 体 图 像 


file_name = 'lena. bmp ' ; 
[orig_image, map | = imread(file_name) ; 
% 读 取 秘密 信息 


file_name = 'key. bmp ' ; 





[ message, mapl | = imread (file_name); 
messagel = message; 

message = double( message ) ; 

message = fix( message. /2 ) ; 

message = uint8 ( message ) ; 

% 确 定 载体 图 像 大 小 

He = size( orig_image,1); 


Ne = size( orig_image ,2); 
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【 例 8-2】 请 编写 MATLAB 程序 ， 实 现 基 于 DCT 的 数字 图 像 水 印 算法 。 
解 : 


% 确 定 秘密 信息 大 小 
Hm = size( message, 1 ); 


Wm = size( message ,2 ); 






































% 利用 秘密 信息 生成 载体 图 像 大 小 的 水 印信 息 
for i1=1.:He 
for j =1:Ne 


watermark(i, j) =message( mod(i, Hm) +1, mod(j, Wm) +1); 
end 
end 
watermarked_image = orig_image; 
% 将 水 印信 息 杏 入 载体 图 像 
for 1=1.:Hec 
for j=1:Ne 
watermarked_image(i, j) = bitset( watermarked_ image(i, j) ,1, watermark(i, j) ); 





end 
end 
imwrite( watermarked_image, 'LSB_watermarked. bmp' , 'bmp' ) ; 
0 LSB 水 印 提取 算法 …………… 
clear all; 
watermarked_image = imread( ' LSB_watermarked. bmp ' ) ; 
% 水 印 图 像 的 大 小 
Hw = size( watermarked_image ,1 ) ; 
Ww = size( watermarked_image ,2 ) ; 
% 水 印信 息 提取 过 程 
for i1=1:Hw 

for j =1:Ww 

watermark (i, j) = bitget( watermarked_image(i,j),1); 





end 
end 
watermark =2 * double( watermark ) ; 
imshow( watermark, | ]); 
title( ' Recovered Watermark ' ) 








水 印 散 入 算法 的 程序 如 下 。 








clear all; 
k =20; % 设 置 水 印 强 度 
block_size =8; % 设 定 图 像 的 分 块 大 小 为 8 x8 
DCT_coef =[0,0,0,1,1,1,1,0;  % 定 义 DCT 中 频 系 数 的 选取 
0,0,1,1,1,1,0,0; 
0,1,1,1,1,0,0,0; 
1,1,1,1,0,0,0,0; 
1,1,1,0,0,0,0,0; 
1,1,0,0,0,0,0,0; 
1,0,0,0,0,0,0,0; 


0,0,0,0,0,0,0,0]; 

















watermark = double( imread( 'copyright. bmp' ) );”% 读 和 人 人 水印 图 像 , 并 转换 为 双 精 度数 组 
Hm = size( watermark, 1); % 计算 水 印 图 像 的 高 度 

Wm = size( watermark, 2); % 计算 水 印 图 像 的 宽度 

n= Hm* Wm; 


% 将 水 印 图 像 转变 为 1 维 行 向 量 ,watermark 由 01 构成 的 1 行 n 列 的 一 维 数组 


watermark = round( reshape( watermark, 1, n). /256); 
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orig_image = double( imread( 'lena. bmp' ) ) ; % 读 入 原始 载体 图 像 , 并 转换 为 双 精 度数 组 


He = size( orig_image, 1); 





We = size( orig_image, 2 ) ; 

c= Hc/8; 

d= Wce/8; 

m=c*d; % 划分 原始 载体 图 像 的 分 块 数 
% 计算 载体 图 像 每 一 分 块 的 方差 


end 





mean(xx) =1/64 * sum(sum(orig image( (1 +(j—1)*8):j*8, (1 +(i—1)*8):1*8))); 
variance( xx) =1/64 * sum(sum( (orig image( (1 + (j—1) #8): j*8, (1+(i-1)*8): i*8) 
-mean(xx) ).“ 2)); 


XxX=XxX+1; 


end 


A = sort( variance) ; 
B=A((cxd-n+1): c*d); % 取 出 方差 最 大 的 前 n 块 
%% 将 水 印信 息 嵌 入 到 方差 最 大 的 前 块 


variance _o =ones(1, c*d); 





for g=1:n 


end 


for h=1:c*d, 


if B(g) = =variance( hb) 
variance_o(h) = watermark(g) ; 
h=e* d; 


end 


end 


watermark_vector = variance_o; 


watermarked_image = orig_image; 

% 设 置 MATLAB 随机 数 生 成 器 状态 了, 作为 系统 密 钥 K 
rand( 'state' ,7); 

% 根 据 当 前 的 随机 数 生 成 带 状 态 J, 生 成 0,1 的 伪 随 机 序列 
pn_sequence_zero = round(rand(1, sum(sum( DCT_coef) ) ) ) ; 
% 巾 入 水 印 

x=1; y=1; 

for (kk =1: m) 
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% 分 块 DCT 变换 

dct_block = dct2(orig image(y: y+ block_size ~1, x: x+block_size -1)); 

% 纹 理 大 (方差 最 大 的 前 n 块 ) 并 且 被 标示 的 水 印信 息 为 0 的 块 在 其 DCT 中 频 系数 让 入 伪 随 机 序列 
tt=1; 

if( watermark_vector( kk) = =0) 


for ii =1: block_size 








for jj =1: block_size 
if( DCT_coef(jj,i) = =1) 
det_block(ii,ii) =dct_block(ii,ii) + k * pn_sequence_zero( tt); 
tt=tt+1; 
end 
end 
end 
end 


下 池水 四 上 术 S) 





% 分 块 DCT 反 变换 
watermarked_image(y: y+ block_size ~ 1, x: x + block_size -1) =idct2(dct_block) ; 
% 换 行 
if(x+block_size) > =We 
x=1; y=y+block_ size; 
else 
X=X+block_size; 
end 
end 
watermarked_image_int = uint8( watermarked_image ) ; 
% 生 成 并 输出 蔡 入 水 印 后 的 图 像 
imwrite( watermarked_image_int, ' dct2_watermarked. bmp' , 'bmp' ); 
和 显示 峰值 信 噪 比 
xsz =255 * 255 * He kx We/sum( sum( (orig_image - watermarked_image). “ 2)); 
psnr =10 x* logl0(xsz) ; 
和 显示 拘 入 水 印 后 的 图 像 
figure( 1) 
imshow( watermarked_image_int, [ | 
title( Watermarked Image' ) 





杷 入 过 程 中 涉及 多 个 一 维 数组 . 其 中 watermark 与 B 是 1 行 n 列 的 一 维 数 组 ; variance 、vari- 
ance_o ( 即 watermark_vector) 均 是 1 行 m 列 的 一 维 数 组 ; pn_sequence_zero 是 1 行 22 列 的 一 维 数 
组 。watermark 由 能 入 的 水 印 图 像 决 定 ，pn_sequence_zero 由 系统 当前 的 伪 随 机 数 生成 器 状态 丁 唯 


一 确定 ， 
体 实现 过 程 中 ， 先 将 一 维 数组 variance_o 全 置 为 1， 方 差 数 组 variance 按 降 序 排 序 得 到 方差 最 


有 具 


一 











watermark 与 pn_sequence_zero 均 由 0，1 构成 。 











大 的 前 n 个 数值 ， 组 成 数组 B; 其 次 ， 修 改 方差 值 最 大 的 图 像 块 对 应 的 variance_o(h) 值 使 得 vari- 
ance_o(h) = watermark(1) ， 修 改 方差 值 次 之 的 图 像 块 对 应 的 variance _o(h) 值 使 得 variance_o( h) = 
watermark( 2 ) ， 以 此 类 推 ， 修 改 完 m 个 数值 得 到 一 维 数组 watermark_ vector。 最 后 选择 watermark_ 
vector( h) 为 0 的 图 像 块 作为 实际 坐 入 水 印 的 图 像 块 ， 当 选 定 的 图 像 块 在 DCT 中 频 的 22 个 系数 稀 
和 人 伪 随 机 序列 pn_sequence_zero 的 倍 后 ， 所 有 图 像 块 进行 DCT 逆 变 换 ， 生 成 含水 印 网 像 。 

用 MATLAB 实现 的 数字 水 印 提取 程序 代码 如 下 。 














clear all; 
block_size =8; 
DCT_coef =[ 0,0,0,1,1,1,1,0; 

0,0,1,1,1,1,0,0; 

0,1,1,1,1,0,0,0; 

1,1,1,1,0,0,0,0; 

1,1,1,0,0,0,0,0; 

1,1,0,0,0,0,0,0; 

1,0,0,0,0,0,0,0; 

0,0,0,0,0,0,0,0 ]; 
orig_image = double( imread( 'lena. bmp' ) ); % 读 入 原始 载体 图 像 
watermarked_image = double( imread( 'dct2_watermarked. bmp' ) ) ; ”% 读 和 人 待 检测 的 图 像 
Hw = size( watermarked_image ,1 ) ; 





Ww = size( watermarked_image ,2 ) ; 
c= Hw/8; 
d= Ww/8; 
m=c*d; 


orig_watermark = double( imread( ' copyright. bmp ' ) ) ; % 读 人 水 印 图 像 
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Ho = size(orig_watermark ,1 ) ; 
Wo = size( orig_watermark ,2 ) ; 
n= Ho* Wo; 
% 设 置 相 同 的 随机 数 生成 器 状态 ,作为 检测 时 的 系统 密 钥 K 
rand( 'state', 7 ); 
pn_sequence_zero = round( rand(1,sum( sum( DCT_coef) ) ) ) ; % 生 成 相同 的 伪 随 机 序列 
% 提 取水 印 
x=1; 
y=1; 
for( kk =1:m) 
% 对 原始 图 像 和 待 检测 图 像 分 别 进行 分 块 DCT 
dct_blockl = dct2( watermarked_image(y: y+ block_size ~1, x: x+ block_size = 1)); 
det_block2 = dct2(orig image(y: y+block_size ~1, x: x+block_size -1)); 
tt=1; 
for ii=1:block_size 





for jj =1:block_size 
if(midband(jj,i) = =1) 
sequence( tt) = dct_blockl(jj,ii) ~ dct_block2(j),ii); 


tt=tt+1; 
end 
end 
end 
% 计 算 两 个 序列 的 相关 性 
if(sequence = =0) 
correlation( kk) =0; 
else 


correlation( kk) = corr2( pn_sequence_zero, sequence); 
end 
% 换 行 
if(x+block_size) > = Ww 
x=1]; 
y=y+block_size; 


else 





x=x+block_ size; 
end 
end 
% 相关 性 大 于 0.5 葡 入 0, 不 大 于 0.5, 则 表明 曾经 被 嵌入 
for( kk =1:m) 
if( correlation( kk ) >0. 5) 


watermark_vector( kk) =0; 





else 
watermark_vector( kk) =1; 
end 
end 
% 计 算 原 始 图 像 的 方差 
xx=1; 
for j=1:c 
fori=1:d 
mean(xx) =1/64 * sum(sum(orig image( (1 +(j—1)*8):j*8, (1 +(i—1)*8):1*8))); 
variance( xx) =1/64 * sum(sum( (orig image( (1 +(j—1)*8):j*8, (1+(i—-1)*8).:i*8) 
-mean( xx) ). “2) ) ; 
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XX=XX+1; 
end 
end 
多 取出 方差 最 大 的 前 n 块 
A =sort(variance) ; 
B=A((c*d-n+1): c*d); 
% 根 据 原始 图 像 方差 最 大 的 前 n 块 的 位 置 把 水 印信 息 提 取出 来 


variance_o =ones(1, n); 











for g=1:n 
for h=1:c*d, 
if B(g) = =variance( hb) 
variance_o( g) =watermark_vector (h); 
h=c* d; 
end 
end 
end 
watermark_vector 二 variance_o; 
% 重 组 舱 入 的 图 像 信息 
watermark = reshape( watermark_vector( 1 : Ho * Wo) ,Ho, Wo); 
% 计算 提取 的 水 印 和 原始 水 印 的 相似 程度 
sim = cor12 (orig_watermark, watermark ) 
% 把 水 印信 息 保 存 为 文件 名 为 watermark. bmp 的 位 图 图 像 


imwrite( watermark , ' watermark. bmp' , 'bmp' ); 

















8.6 小 结 





数字 水 印 技术 是 通过 一 定 的 算法 将 一 些 标志 性 信息 直接 舱 入 多 媒体 内 容 中 ,但 不 影响 原 内 
容 的 价值 和 使 用 ， 并 且 不 能 被 人 的 感知 系统 觉察 或 注意 到 ， 只 有 通过 专用 的 检测 器 或 阅读 器 才 
能 提取 。 其 中 的 水 印信 息 可 以 是 作者 的 序列 号 、 公 司 标志 、 有 特殊 意义 的 文本 等 信息 ， 可 用 来 识 
别 文件 、 图 像 或 音乐 制品 的 来 源 、 版 本 、 原 作者 、 拥 有 者 、 发 行人 、 合 法 使 用 人 等 对 数字 产品 的 
拥有 权 。 根 据 数字 水 印 是 否 可 见 可 以 分 为 可 见 水 印 和 不 可 见 水 印 ; 根据 数字 水 印 的 作用 可 以 将 
数字 水 印 分 为 鲁 棒 水 印 、 脆 弱 水 印 和 半 脆 弱 水 印 ; 根据 水 印 实 现 的 方法 不 同 可 分 为 空间 域 数字 
水 印 和 频率 域 数字 水 印 等 。 一 个 数字 水 印 系统 一 般 包 括 水 印 的 生成 、 水 印 的 误 入 和 水 印 的 提取 
或 检测 3 个 基本 方面 。 

本 童 简要 介绍 了 一 些 主要 的 水 印 算法 。 空 间 域 水 印 算法 的 最 大 特点 是 复杂 度 低 ， 实 时 性 较 
强 。 但 是 空间 域 水 印 算法 在 鲁 棒 性 上 表现 不 佳 ， 因 此 很 多 空间 域 算 法 都 设计 成 脆弱 水 印 或 者 半 
脆弱 水 印 算 法 。 与 空间 域 水 印 算 法 相 比 ， 随 后 发 展 起 来 的 变换 域 水 印 算法 更 受 青睐 。 变 换 域 算法 
的 最 大 特点 是 鲁 棒 性 好 ， 尤 其 是 对 滤波 、 量 化 和 压缩 攻击 的 抵抗 能 力 强 ， 而 且 骨 入 容量 比较 大 。 







































































8.7 习题 


. 什么 是 数字 水 印 ， 数 字 水 印 主要 可 分 成 几 类 ? 

. 举例 说 明 数字 水 印 的 主要 用 途 。 

. 简单 描述 数字 水 印 的 基本 思想 和 基本 特征 ， 以 及 视频 数字 水 印 有 哪些 特有 性 质 。 
. 简 述 数字 水 印 的 嵌入 和 提取 过 程 。 
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第 9 到 ”图像 与 视频 的 质量 评价 


本 章 学 习 目 标 : 

。 掌握 人 有 眼 视觉 特性 的 知识 ， 包 括 对 比 敏感 度 和 掩盖 效应 的 概念 。 

。 掌握 图 像 与 视频 质量 的 主观 评价 方法 。 

。 掌握 全 参考 图 像 质 量 的 客观 评价 方法 ， 包 括 基于 信号 保 真 度 的 均 方 误差 和 峰值 信 骂 比 ， 基 
于 结构 相似 性 的 质量 评价 ， 以 及 基于 信息 保 真 度 准则 的 评价 方法 。 

。 了 解 半 参考 、 无 参考 图 像 质 量 评价 方法 ， 包 括 自然 场景 统计 特性 的 原理 和 建 模 方法 ， 以 及 
常见 的 空域 与 频 域 特征 提取 方法 。 

。 了解 全 参考 、 半 参考 和 无 参考 视频 质量 评价 方法 。 


9.1 常见 的 图 像 与 视频 失真 类 型 


在 讲述 图 像 与 视频 质量 的 评价 方法 之 前 ， 首 先 明确 如 下 3 个 基本 概念 。 

1) 参考 图 像 (Reference Image) : 也 称 为 标准 图 像 或 无 失真 图 像 ， 即 原始 没有 受到 任何 失真 
的 图 像 。 一 般 指 通 过 图 像 采集 设备 获取 还 未 经 过 压缩 等 处 理 的 原始 图 像 。 

2) 失真 图 像 (Distorted Image) : 是 指 参 考 图 像 在 经 过 压缩 等 处 理 过 程 中 受到 不 同类 型 或 不 
同 程度 失真 后 产生 的 待 评 价 图 像 。 和 常见 的 失真 类 型 比如 经 过 压缩 编码 (JPEG、JPEG2000) 带 来 
的 方块 效应 或 振 铃 效应 、 加 性 或 乘 性 噪声 污染 、 高 斯 或 运动 模糊 、 对 比 度 压 缩 以 及 在 易 错 信道 中 
由 于 传输 误 码 带 来 的 失真 等 。 

3) 图 像 质 量 : 广义 上 来 讲 ， 图 像 质量 有 两 方面 的 含义 ， 一 是 面向 一 般 应 用 的 图 像 保 真 度 
(Image Fidelity) ， 即 失真 图 像 与 参考 图 像 之 间 的 相似 程度 或 信息 保持 程度 ， 反 映 人 有 眼 观察 图 像 时 
视觉 感知 的 舒适 性 ， 人 眼 视 觉 感知 越 舒 适 ， 则 认为 图 像 质量 越 好 ; 二 是 针对 特定 应 用 的 图 像 可 懂 
度 (Image Intelligibility) ， 即 图 像 向 人 或 机 器 提供 有 效 信息 的 程度 。 经 过 视觉 心理 学 和 图 像 处 理 
领域 专家 多 年 的 研究 实践 ， 图 像 保 真 度 测量 产生 了 大 量 的 研究 成 果 ， 而 图 像 可 懂 度 测量 由 于 涉 
及 更 多 的 人 类 视觉 心理 学 的 高 层次 感知 机 理 ， 还 处 于 研究 的 初级 阶段 。 本 书 中 的 图 像 质量 是 指 
图 像 保 真 度 ， 主 要 讲述 针对 图 像 保 真 度 的 测量 方法 。 

图 像 质 量 评价 (Image Quality Assessment，IQA) 与 视频 质量 评价 (Video Quality Assessment， 
VQA) 就 是 通过 主观 或 客观 的 方式 对 失真 图 像 或 视频 进行 评分 ， 以 准确 反映 失真 图 像 或 视频 的 
视觉 质量 。 主 观 的 方式 即 通过 人 工 对 失真 图 像 或 视频 进行 评分 ， 而 客观 的 方式 则 通过 工程 化 的 
计算 模型 自动 地 对 失真 图 像 或 视频 进行 评分 。 

图 像 与 视频 经 过 不 同 的 处 理 阶 段 ， 所 产生 的 失真 类 型 与 失真 程度 也 各 不 相同 。 本 节 将 分 别 
介绍 常见 的 图 像 与 视频 失真 类 型 及 其 成 因 ， 并 结合 示例 给 以 直观 的 认识 。 

1. 图 像 失真 类 型 

常见 的 图 像 失 真 包括 以 下 几 种 类 型 。 

(1) 图 像 编 码 产 生 的 压缩 失真 

图 像 的 数据 量 巨大 ， 在 绝 大 多 数 应 用 环境 中 都 需要 先 经 过 编码 (压缩) 再 进行 存储 或 传输 ， 
在 编码 过 程 中 ， 常 使 用 量化 来 减少 数据 量 ， 从 而 产生 压缩 失真 。 根 据 压缩 编码 中 使 用 的 变换 或 量 
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化 技术 的 不 同 ， 压 缩 失真 引起 的 视觉 观察 效果 也 不 尽 相 同 。 如 JPEG 压缩 使 用 基于 块 的 离散 余弦 
变换 (DCT) 和 量化 常 带 来 较 明 显 的 细节 模糊 (Blur) 和 方块 效应 ， 而 JPEG2000 压缩 使 用 小 波 
变换 (WT) 常 带 来 较 明显 的 高 频 细节 模糊 和 边界 处 的 振 铃 效应 ( Ringing) 。 图 9-1 所 示 为 图 像 
分 别 经 过 JPEG 与 JPEG2000 压缩 后 产生 失真 的 示意 图 ， 从 中 可 以 明显 地 看 出 JPEG 产生 的 方块 效 
应 与 JPEG2000 产生 的 振 铃 效应 带 来 的 视觉 上 的 区 别 。 
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a) 参考 图 像 


b) JPEG 压 缩 失真 
图 9-1 压缩 失真 示意 图 


(2) 图 像 采集 时 由 于 镜头 器 件 缺陷 产生 的 噪声 失真 

在 采集 图 像 时 ， 由 于 镜头 内 部 物理 器 件 的 缺 隐 有 时 会 产生 噪声 失真 ， 根 据 噪声 特性 是 否 与 
言 号 相关 ， 常 分 为 加 性 噪声 与 乘 性 噪声 。 加 性 噪声 的 特性 与 信号 无 关 ， 而 乘 性 噪声 的 特性 与 信号 
相关 ， 其 幅度 会 受到 信号 的 调制 。 为 简单 起 见 ， 一 般 将 噪声 视 为 加 性 高 斯 白 噪声 ( Additive 
White Gaussian Noise，AWGN) 进行 处 理 和 分 析 。 图 9-2 所 示 为 原始 图 像 加 入 均值 为 0、 标 准 差 为 
0. 14 的 高 斯 白 噪声 后 的 示意 图 。 
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a) 参考 图 像 b) 加 入 高 斯 白 噪声 后 的 图 像 
图 9-2 ”噪声 失真 示意 图 


(3) 图 像 采 集 时 由 于 镜头 抖动 或 散 焦 产 生 的 模糊 失真 

模糊 失真 也 是 很 常见 的 一 种 失真 类 型 ， 根 据 成 因 一 般 可 分 为 散 焦 模糊 或 由 于 镜头 与 景物 之 
间 的 相对 运动 产生 的 运动 模糊 。 对 模糊 失真 特性 建 模 时 ， 为 简单 起 见 常 用 圆 对 称 的 高 斯 模糊 来 
模拟 。 图 9-3 所 示 为 原始 图 像 加 入 高 斯 模糊 后 的 示意 图 。 

(4) 图 像 压缩 后 的 码 流 在 易 错 信 道中 传输 时 由 于 比特 误 码 产生 的 传输 失真 

编码 后 的 图 像 码 流 在 易 错 信道 中 传输 ， 有 可 能 由 于 网 络 环境 ( 如 快速 衰落 的 瑞 利 信道 ) 的 
影响 而 造成 比特 误 码 ， 虽 然 先 进 的 编码 器 中 会 有 错误 弹性 机 制 ， 但 比特 误 码 产生 的 失真 仍然 无 
法 完全 消除 。 图 9-4 所 示 为 图 像 在 传输 过 程 中 由 于 比特 误 码 产生 失真 的 示意 图 。 

图 像 的 处 理 过 程 多 种 多 样 ， 造 成 图 像 失真 的 原因 也 很 多 ,除了 上 述 几 种 常见 的 失真 类 型 之 
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四 ) 数字 图 像 与 视频 处 理 

















a) 参考 图 像 b) 模糊 失真 图 像 
图 9-3 模糊 失真 示意 图 





a) 参考 图 像 b) 传输 失真 图 像 
图 9-4 传输 失真 示意 图 





外 ， 其 他 的 图 像 失真 包括 对 比 度 变 化 、 亮 度 偏 移 、 颜 色 失 真 等 ， 甚 至 在 单个 图 像 中 同时 出 现 多 种 
真 类 型 。 这 在 图 像 质 量 评价 中 都 是 需要 考虑 的 问题 。 

2. 视频 失真 类 型 

常见 的 视频 失真 包括 以 下 几 种 类 型 。 

(1) 视频 编码 产生 的 压缩 失真 
与 图 像 编码 类 似 ， 实 际 的 视频 应 用 系统 在 传输 之 前 必然 经 过 编码 (压缩) 阶段 ， 编 码 中 的 
量化 技术 是 造成 失真 的 主要 原因 。 当 然 不 同 的 视频 编码 标准 采用 不 同 的 编码 技术 和 工具 来 压缩 
视频 ， 因 而 产生 的 失真 类 型 与 造成 的 质量 损伤 也 不 太一 样 。 根 据 目 前 常用 的 视频 编码 标准 ， 压 缩 
失真 主要 包括 MPEG-2 压缩 失真 、MPEG-4/H. 264AVC 压缩 失真 、HEVC 压缩 失真 与 AVS 压缩 失 
真 等 。 压 缩 失真 在 视觉 上 主要 表现 为 空域 上 的 方块 效应 、 假 轮廓 、 细 节 模 糊 等 。 

(2) 视频 压缩 后 的 码 流 在 易 错 信道 中 传输 时 由 于 数据 丢失 产生 的 传输 失真 

视频 压缩 后 的 码 流 相 比 图 像 压 缩 码 流 在 数据 量 上 通常 要 大 得 多 ， 传 输 时 产生 的 失真 主要 与 
信道 条 件 相关 ， 比 如 在 无 线 信 道中 传输 产生 的 误 码 失真 、 在 IP 网 络 中 传输 产生 的 数据 丢 包 失真 
等 。 传 输 失 真 在 视觉 上 既 表 现 为 空域 上 的 信息 错乱 ， 又 表现 为 时 域 上 的 运动 补偿 不 匹配 、 拖 虹 效 
应 、 拌 动 效 应 等 。 

需要 注意 的 是 ， 视 频 中 的 相继 帧 之 间 是 存在 相关 性 的 ， 这 种 相关 性 一 方面 表现 在 帧 内 容 之 间 的 
自然 相关 性 ， 另 一 方面 在 视频 编码 时 ， 某 一 帧 的 编码 会 参考 之 前 甚至 之 后 的 若干 帧 进行 时 域 信 息 预 
测 。 一 帧 图 像 的 部 分 信息 丢失 或 错误 很 可 能 会 影响 当前 帧 周围 信息 甚至 相 邻 多 帧 信息 的 正确 解码 ， 从 
而 大 大 影响 视频 质量 ， 这 就 是 视频 中 的 误 码 传播 (Error Propagation) 现象 。 图 9-5 所 示 为 参考 视频 帧 
图 像 分 别 经 过 MPEG-2 压缩 、H. 264 压缩 以 及 信道 传输 后 的 失真 示意 图 。 
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像 与 视频 的 大 旦 溯 从 图】 












































c) H.264 压 缩 失 真 d) 传输 失真 
图 9-5 视频 失真 示意 图 


9.2 图 像 与 视频 质量 的 主观 评价 


9.2.1 对 比 敏感 度 与 视觉 掩盖 效应 


在 大 多 数 图 像 处 理应 用 中 ， 图 像 与 视频 信和 号 的 最 终 接收 者 都 是 人 眼 或 称 为 人 类 视 党 系统 
(Human Visual System，HVS) ，HVS 对 图 像 与 视频 质量 的 感知 有 其 内 在 的 规律 和 特点 ， 这 些 规律 
或 机 理 就 称 为 人 眼 视觉 特性 。HVS 对 视觉 信息 的 处 理 机 制 是 一 个 极其 复杂 的 过 程 ， 涉 及 视觉 神 
经 学 、 生 理学 、 心 理学 、 认 知 学 等 多 学 科 知 识 ， 目 前 还 没有 被 完全 的 认识 和 理解 。 由 于 对 HVS 
各 个 部 分 都 采用 自 底 向 上 (Bottom Up) 的 建 模 难 度 很 大 ， 目 前 更 多 的 是 采用 黑 盒 法 将 基本 的 图 
像 模 式 输入 到 HVS 并 记录 其 对 这 些 模式 的 感知 输出 结果 ， 并 使 用 工程 化 的 方法 对 输入 输出 关系 
进行 建 模 。 本 节 将 介绍 对 比 敏感 度 和 视觉 掩 羡 效 应 这 两 个 与 图 像 质量 感知 紧密 相关 的 人 眼 视 觉 
特性 。 有 代表 性 的 图 像 或 视频 质量 评价 方法 或 多 或 少 地 都 利用 了 这 些 特性 ， 以 使 其 评价 结果 与 
人 眼 感知 更 加 一 致 。 

1. 对 比 敏 感度 

对 比 度 决定 了 人 眼 对 亮度 变化 的 感受 程度 ， 对 比 度 阔 值 (Contrast Threshold) 是 指 人 眼 能 党 察 
到 的 亮度 变化 的 临界 值 ， 对 比 敏 感度 ( Contrast Sensitivity) 则 定义 为 对 比 度 靖 值 的 倒数 。 对 比 度 国 
值 越 低 ， 则 对 比 敏感 度 越 高 ， 即 人 有 眼 能 分 辨 亮度 变化 的 能 力 越 强 。 对 于 视觉 信号 中 不 同 的 空间 频率 
内 容 ， 人 类 视觉 系统 具有 不 同 的 对 比 敏 感度 。 对 比 敏感 度 函 数 (Contrast Sensitivity Function ，CSF ) 
就 描述 了 对 比 敏感 度 随 空间 频率 的 变化 特性 ， 其 数学 表达 式 为 

CSF(f) =2.6 x (0.0192 +0.114f) xexp[ — (0.114f)”'] (9-1) 
式 中 , /是 图 像 的 空间 频率 ， 单 位 是 周期 / 度 (cycles/degree)。 
图 9-6a 和 图 9-6b 所 示 分 别 为 Campbell-Robson 对 比 敏感 度 函 数 的 条 形 图 和 对 比 敏感 度 函 数 曲 
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(©) 数字 图 像 与 视频 处 








线 。 如 图 9-6 所 示 ， 随 着 空间 频率 
由 小 到 大 ， 人 了 眼 对 比 敏感 度 先 由 小 
变 大 ， 再 由 大 变 小 ， 大 约 在 空间 频 
率 为 8 周期 / 度 的 时 候 取得 最 大 值 ， 
当空 间 频 率 增 大 到 60 周期 / 度 后 对 
比 敏 感度 趋 近 于 零 ， 即 对 亮度 变化 
不 再 敏感 。 因 此 ，CSF 具有 带 通 特 
性 ， 对 中 间 频 率 敏感 度 大 ， 对 高 频 
与 低频 敏感 度 相对 较 小 。 

2. 视觉 掩盖 效应 

视觉 掩盖 效应 ( Visual Masking 
Effect) 是 指 人 眼 对 视觉 信号 的 感知 
能 力 (或 视觉 信号 的 可 见 性 ) 会 因 
为 周围 视觉 信号 的 存在 而 减弱 的 现 
象 ， 其 强 弱 可 根据 掩盖 信号 出 现 与 
否 所 导致 的 视觉 信号 可 见 性 的 变化 
程度 来 衡量 。 一 般 而 言 ， 当 视觉 信 
号 与 周围 掩盖 信号 具有 相近 的 空间 
位 置 和 运动 情况 、 相 似 的 频率 变化 
情况 与 方向 模式 时 ,掩盖 效应 更 
强 。 常 见 的 掩盖 效应 包括 对 比 度 掩 
盖 效 应 、 纹 理 掩盖 效应 、 运 动 掩盖 
效应 等 。 掩 盖 效 应 的 出 现 会 使 得 视 
觉 信号 中 失真 的 可 见 性 发 生变 化 ， 
很 多 最 近 的 图 像 质 量 评价 方法 也 都 
利用 了 视觉 掩盖 效应 ， 以 定量 地 识 
别 不 同类 型 的 失真 被 掩盖 的 程度 。 

图 9-7 所 示 为 视觉 掩盖 效应 





对 比 敏感 度 





a) Campbell-Robson CSF 条 形 图 











30 布 50 60 70 
空间 频率 //( 周 期 / 度 ) 
b) 对 比 敏 感度 函数 曲线 


图 9-6 ”对比 敏感 度 函 数 示 意图 


示意 图 ， 其 中 图 9-7a 是 原始 Lena 图 像 ， 可 看 作 是 参考 图 像 ， 图 9-7b 是 均值 为 0、 方 差 为 
0. 01 的 空间 分 布 均匀 的 高 斯 白 噪 声 图 像 ， 图 9-7c 是 原始 图 像 加 入 高 斯 白 噪声 后 的 失真 图 像 。 从 
图 像 质量 评价 的 角度 来 分 析 ， 图 9-7b 是 参考 图 像 与 失真 图 像 之 间 的 误差 信号 ， 误 差 强 度 在 空间 上 








a) 参考 图 像 
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b) 高 斯 白 噪 声 图 像 
9-7 视觉 掩盖 效应 示意 图 





c) 失真 图 像 
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分 布 均匀 ， 但 是 从 图 9-7c 可 以 看 出 ， 随 着 局 部 空间 位 置 上 纹理 模式 和 复杂 程度 的 不 同 ， 误 差 的 可 见 
性 也 明显 不 同 。 在 Lena 图 中 的 帽 穗 处 ， 空 间 频 率 很 高 ， 纹 理 模 式 复杂 ， 高 斯 噪声 失真 被 掩盖 本; 
而 在 Lena 的 脸 部 和 肩 部 ， 纹 理 较 平 滑 ， 高 斯 噪声 没有 被 掩盖 ， 失 真 非 常 明显 。 在 设计 图 像 质量 的 
评价 方法 时 ， 就 需要 考虑 这 种 视觉 上 的 失真 掩盖 效应 。 


9.2.2 电视 图 像 质量 的 主观 评价 方法 


图 像 与 视频 质量 的 主观 评价 方法 类 似 ， 都 是 通过 人 工 来 观察 图 像 ， 并 对 感知 到 的 图 像 或 视 
频 质 量 进行 打分 ， 最 后 对 多 人 打分 的 结果 进行 统计 平均 ， 得 到 图 像 或 视频 的 平均 主观 意见 分 
(Mean Opinion Score，MOS) 。 为 了 得 到 统计 上 有 意义 的 主观 质量 评价 结果 ， 对 观察 者 的 特性 、 观 
察 时 的 实验 环境 〈 比 如 显示 器 的 大 小 、 亮 度 和 对 比 度 、 人 有 眼 观察 距离 以 及 环境 亮度 等 ) 、 打 分 标 
准 、 具 体 评 价 方法 与 流程 等 都 有 较 严 格 的 规定 。 国 际 电 信 联 盟 无 线 电 通信 部 (International Tele- 
communication Union- Radiocommunication Sector，ITU-R) 在 2012 年 1 月 公布 的 建议 书 BT. 500-13 
“电视 图 像 质量 的 主观 评价 方法 ”和 BT. 710-2“ 高 清晰 度 电 视图 像 质量 的 主观 评价 方法 ”中 对 
评价 方法 和 实验 环境 等 因素 给 出 了 指导 性 建议 。 

1. 对 观察 者 的 要 求 

一 般 要 求 参加 评价 的 观察 者 数目 较 多 ， 比 如 20 人 以 上 。 选 择 的 观察 者 既 要 包括 对 图 像 处 理 
技术 有 一 定 经 验 的 专业 人 员 ， 又 要 包括 对 图 像 处 理 没 有 经 验 的 一 般 人 员 ， 并 对 观察 者 的 特点 做 
尽量 详细 的 记录 ， 比 如 职业 类 型 (大 学 教师 、 大 学 生 、 广 播 电 视 从 业 人 员 等 ) 、 性 别 、 年 龄 等 。 
在 评价 开始 之 前 ， 需 要 确保 观察 者 的 视力 具有 正常 的 视 敏 度 和 正常 的 彩色 视觉 。 之 后 ， 确 保 观察 
者 知晓 评价 目的 以 及 详细 的 评价 方法 与 流程 ， 包 括 打 分 标准 等 级 、 常 见 的 质量 因素 或 失真 类 型 、 
评价 时 间 等 。 

2. 对 实验 环境 的 要 求 

观察 时 的 实验 环境 对 图 像 展 示 效 果 和 人 眼 观 察 效 果 影 响 很 大 ， 因 此 在 主观 质量 评价 时 对 显 
示 需 的 特性 、 人 眼 观察 距离 以 及 环境 亮度 等 都 有 较 严 格 的 要 求 。 通 用 的 观察 环境 要 求 如 下 。 

1) 未 激活 显示 器 的 屏幕 亮度 与 峰值 亮度 之 比 和 0. 02。 

2) 显示 器 仅 显示 黑 电 和 平 与 仅 显 示 峰 白 电 乎 的 屏幕 亮度 之 比 约 等 于 0.01。 

3) 显示 器 的 亮度 、 对 比 度 和 分 辨 率 工 作 在 正常 范围 内 。 

4) 观察 者 的 观察 距离 和 观察 角度 相 比 屏幕 大 小 在 正常 范围 内 。 

5) 显示 器 周围 的 环境 亮度 与 图 像 峰 值 亮 度 之 比 约 等 于 0. 15 。 

6) 背景 色温 和 照度 在 合适 范围 内 。 

3. 打分 标准 

目前 国际 上 通用 的 图 像 或 视频 主观 质量 打分 是 采用 5 级 打分 法 ， 可 以 选择 质量 尺度 或 者 损伤 
尺度 进行 打分 ， 具体 的 打分 标准 如 表 9-1 所 示 。 一般 而 言 ,具有 图 像 处 理 经 验 的 专业 人 员 更 容易 












































































































































































































































































































































发 现 图 像 与 视频 中 的 失真 ， 宜 采用 损伤 尺度 ， 而 没有 图 像 处 理 经 验 的 一 般 人 员 宜 采用 质量 尺度 。 
表 9-1 两 种 尺度 的 图 像 与 视频 质量 打分 法 
质量 尺度 得 ”分 损伤 尺度 得 ”分 
非常 好 5 无 察觉 5 
好 4 刚 察觉 4 
一 般 3 轻微 讨厌 3 
差 2 讨厌 2 
非常 差 1 难以 观看 1 
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4. 具体 评价 方法 
一 个 评价 阶段 应 在 半 小 时 以 内 完成 ， 以 防 观察 者 出 现 视觉 疲劳 。 在 真正 开始 记录 观察 者 对 
测试 图 像 的 评价 结果 之 前 ， 先 使 观察 者 进行 几 次 模拟 测试 ， 每 次 持续 时 间 相同 ， 以 稳定 观察 者 对 
图 像 的 主观 评分 。 然 后 ， 再 使 观察 者 对 测试 


图 像 完成 一 次 或 多 次 评价 ， 并 记录 评价 结果 ， OO 
ee 试图 像 或 序列 的 长 度 。 | | | 

经 验 表 明 ， 对 于 静态 图 像 ， 展 示 3 ~ 4s 并 重 
复 5 次 (最 后 两 次 用 于 评价 ) 比较 合适 。 对 六 / 
具有 时 变 特性 的 视频 序列 ， 每 个 序列 展示 10s 模拟 测试 实际 测试 评分 
并 重复 2 次 (第 二 次 用 于 评价 ) 比较 合适 。 | 
图 9-8 所 示 为 观察 者 进行 模拟 测试 与 实际 评 图 95 评价 流程 未 意图 
分 的 流程 示意 图 ， 主 要 分 为 模拟 测试 与 实际 测 
试 评分 两 个 阶段 ， 其 中 也 与 7 为 测试 图 像 或 视频 的 展示 时 间 ， 与 也 为 测试 之 间 的 间隔 时 间 。 

评价 方法 常 采用 双 刺 激 连 续 质量 尺度 (Double Stimulus Continuous Quality Scale，DSCQS) 法 。 
所 谓 “ 双 刺激 ”是 指 由 参考 图 像 与 相应 的 失真 图 像 组 成 图 像 对 ， 观 察 者 观看 以 随机 顺序 出 现 的 
一 系列 图 像 对 (图像 对 中 参考 图 像 与 失真 图 像 出 现 的 顺序 是 随机 的 ， 且 观察 者 不 被 告知 哪个 是 
参考 图 像 ， 哪 个 是 失真 图 像 ， 以 避免 观察 者 打分 时 带 有 偏见 ) ， 并 对 两 者 的 质量 都 按照 连续 尺度 
的 5 级 打分 法 给 出 评价 。 最 后 根据 不 同 观 察 者 对 同一 测试 图 像 或 视频 的 主观 评分 ， 进 行 归 一 化 和 
统计 分 析 ， 得 到 主观 评价 结果 。 

主观 质量 评价 方法 的 优点 是 准确 可 靠 ， 因 为 绝 大 多 数 图 像 处 理 系统 的 最 终 接收 者 都 是 人 眼 ， 
因此 其 评价 结果 常 作为 基准 来 判断 客观 质量 评价 方法 的 预测 性 能 ， 但 也 具有 下 列 缺 点 。 

1) 主观 评价 需要 的 观察 者 数目 较 多 ， 会 耗费 大 量 人 力 和 时 间 ， 实际 操作 起 来 很 不 方便 且 综 
合成 本 较 大 。 

2) 主观 评价 有 时 会 受到 观察 者 个 人 偏好 、 观 察 经 验 、 当 时 情绪 等 不 确定 心理 因素 的 影响 ， 
从 而 对 打分 结果 产生 一 定 影响 。 

3) 主观 评价 只 能 做 事后 评价 ， 无 法 应 用 于 需要 对 图 像 与 视频 质量 实时 监控 的 场合 。 

4) 最 重要 的 是 ， 主 观 评价 无 法 进行 “自动 的 ”质量 评价 ， 更 无 法 作为 质量 目标 来 指导 图 像 
与 视频 系统 的 优化 设计 。 

可 见 ， 主 观 评价 方法 虽然 准确 但 存在 诸多 不 便 ， 因 此 近年 来 视觉 心理 学 与 图 像 处 理 领 域 的 
专家 根据 HVS 的 感知 特性 更 多 地 致力 于 开发 客观 的 (Objective) 质量 评价 方法 ， 以 实现 图 像 与 
视频 质量 的 自动 评价 。 


9.3 图像 质量 的 客观 评价 


像 与 视频 处 理 













































































































































































9.3.1 图 像 质量 客观 评价 方法 的 分 类 


目前 ， 有 多 种 图 像 质量 客观 评价 方法 ， 根 据 不 同 的 准则 可 以 有 不 同 的 分 类 方法 。 

1. 基于 参考 图 像 的 可 用 性 进行 分 类 

根据 对 失真 图 像 进行 质量 评价 时 参考 图 像 的 可 用 性 或 利用 程度 ， 可 分 为 以 下 三 类 。 

1) 全 参考 (Full Reference，FR) 图 像 质量 评价 ; 对 失真 图 像 进行 评价 时 根据 需要 可 以 利用 
参考 图 像 的 所 有 信息 。 
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2) 半 参 考 (Reduced Reference，RR) 图 像 质量 评价 : 也 称 为 减少 参考 或 部 分 参考 质量 评 
价 ， 对 失真 图 像 评价 时 利用 了 参考 图 像 的 部 分 信息 ， 这 部 分 信息 通常 是 从 参考 图 像 中 提取 的 具 
有 代表 性 的 特征 。 

3) 无 参考 (No Reference， NR) 图 像 质量 评价 : 也 称 为 盲 (Blind) 图 像 质量 评价 ， 即 对 失 
图 像 进行 评价 时 不 利用 对 应 的 参考 图 像 做 对 比 ， 仅 仅 根 据 失真 图 像 自 身 的 信息 进行 质量 评价 。 

2. 基于 失真 图 像 是 否 包 含 彩色 信息 进行 分 类 

1) 灰 度 图 像 (Gray Image) 质量 评价 .失真 图 像 仅 包含 亮度 通道 ， 不 包含 彩色 信息 。 

2) 彩色 图 像 (Color Image) 质量 评价 : 失真 图 像 包含 彩色 信息 ， 根 据 不同 格 式 具 有 不 同 的 
彩色 通道 , 如 RGB 、YUV、HSV 等 。 

对 于 彩色 图 像 ， 由 于 HVS 对 彩色 失真 的 感知 机 理 还 不 够 深入 ， 简 单 做 法 是 将 彩色 图 像 转化 
为 灰 度 图 像 ( 即 提取 出 亮度 通道 ) 进行 评价 ,复杂 些 的 做 法 是 对 彩色 图 像 的 各 个 颜色 通道 (如 
RGB 、YUV 等 ) 分 别 作 为 灰 度 图 像 进行 评价 ， 再 根据 各 个 颜色 通道 对 人 眼 视 觉 的 重要 性 加 权 平 
均 得 到 彩色 图 像 的 综合 质量 。 

3. 基于 应 用 范围 进行 分 类 

1) 通用 的 质量 评价 : 是 指 设计 的 质量 评价 方法 可 应 用 于 不 同 的 领域 和 失真 类 型 。 

2) 专用 的 质量 评价 : 所 设计 的 质量 评价 方法 专门 针对 某 些 应 用 领域 或 特定 的 失真 类 型 ， 如 
专门 针对 JPEG 压缩 失真 的 质量 评价 、 专 门 针 对 模糊 程度 (Blur) 或 锐 度 (Sharpness) 的 质量 评 
价 、 专 门 监控 网 络 视频 流质 量 的 评价 方法 等 。 专 用 的 质量 评价 方法 在 设计 时 就 考虑 了 特定 的 应 
用 场景 ， 因 此 对 失真 图 像 有 更 多 的 了 解 〈 即 先 验 知识 ) ， 一 般 能 获得 比 通用 质量 评价 更 好 的 准确 
性 与 计算 效率 。 比 如 视频 质量 专家 组 (Video Quality Experts Group ，VQEG) 就 主要 针对 电视 图 像 
质量 进行 评价 ， 对 标准 视频 编码 和 传输 误 码 产生 的 视频 质量 降 质 进行 了 较 好 的 建 模 和 预测 。 

本 节 基 于 第 一 种 分 类 方法 分 别 介绍 全 参考 、 半 参考 与 无 参考 的 图 像 质 量 评价 方法 ， 并 主要 
针对 单 通道 的 灰 度 图 像 。 另 外 ， 假 定 待 评价 的 失真 图 像 与 参考 图 像 尺寸 一 致 ， 且 在 像素 空间 坐标 
位 置 上 是 严格 对 齐 的 ， 即 两 者 之 间 仅 存在 灰 度 值 的 差异 ， 而 不 存在 位 置 上 的 俩 移 (如 平移 、 转 
换 、 缩 放 等 ) 。 这 符合 大 部 分 图 像 处 理 系 统 的 应 用 场景 ， 比 如 参考 图 像 经 过 压缩 编码 ( JPEG、 
JPEG2000) 、 噪 声 污 染 或 信道 误 码 后 引入 的 失真 都 表现 为 像素 值 的 变化 而 图 像 像 素 位 置 不 变 。 


9.3.2 全 参考 图 像 质 量 评价 


全 参考 图 像 质量 评价 的 方法 有 很 多 ， 性 能 也 不 尽 相同 。 本 小 节 将 介绍 几 种 最 具 代 表 性 且 已 
经 得 到 学 术 界 与 产业 界 广泛 认可 的 全 参考 图 像 质 量 评价 方法 ， 主 要 包括 基于 信和 号 保 真 度 的 均 方 
误差 与 峰值 信 噪 比 ， 基 于 结构 相似 性 的 质量 评价 ， 以 及 基于 信息 保 真 度 准则 的 评价 方法 ， 并 从 原 
理 、 准 确 性 、 计 算 复 杂 度 等 方面 分 析 各 自 的 优 缺 点 。 

1. 均 方 误差 

均 方 误差 是 基于 信号 保 真 度 (或 误差 信号 敏感 性 ) 的 IQA 方法 ， 这 类 方法 认为 失真 图 像 是 
由 参考 图 像 加 上 误差 信号 得 到 ， 通 过 测量 误差 信号 的 视觉 感知 强度 来 评价 图 像 失 真 的 程度 。 对 
于 数字 化 的 尺寸 为 M x N 个 像素 的 二 维 灰 度 图 像 , 设 f(i, j) 与 g(i,j) 分 别 表示 参考 图 像 与 失 
真 图 像 在 (i, )) 位 置 的 像素 值 ， 则 二 者 之 间 的 均 方 误差 (Mean Squared Error，MSE) 定义 为 对 
应 位 置 像素 灰 度 值 误差 的 平方 的 平均 值 ， 计 算 公 式 如 下 : 


1 MM N 
MSE = Fx RO OE ij) -ED 了 (9-2) 
式 中 ,; 与 了 分别 表示 像素 位 置 在 宽度 1 与 高 度 N 上 的 索引 。 由 上 述 公式 可 见 ，MSE 计算 每 一 像 
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(©) 数字 图像 与 视频 处 理 


素 位 置 上 灰 度 值 的 误差 ， 之 后 做 平方 与 平均 化 处 理 ， 因 此 可 以 写成 如 下 等 价 的 一 维 信号 误差 统 
计 的 形式 : 
































MSE = [FE) -~ g(k) (9-3) 


式 中 , K=MxN, =|1,2,…,K| 表示 像素 索引 ; f(k) 与 ga(%) 分 别 表示 参考 图 像 与 失真 图 像 
的 第 个 像素 值 。 这 相当 于 将 二 维 图 像 信 号 按 行 或 按 列 拉 成 一 维 向 量 的 形式 进行 误差 统计 。 习 惯 
做 法 是 将 整个 图 像 或 图 像 块 (Patch) 按 列 拉 成 一 维 列 向 量 的 形式 ， 这 一 预 处 理 过 程 在 图 像 处 理 
的 其 他 领域 也 应 用 较 多 。 

MSE 根据 信号 误差 的 统计 特性 来 表达 图 像 的 失真 程度 ，MSE 值 越 大 ， 表 示 两 个 图 像 在 所 有 
像素 位 置 上 平均 的 误差 平方 值 越 大 ， 即 失真 图 像 偏 离 参 考 图 像 的 程度 越 大 ， 其 失真 就 越 大 ， 质 量 
越 低 ; 反之 ，MSE 值 越 小 ， 失 真 越 小 ， 质 量 越 高 。 极 端 情况 下 ， 当 失真 图 像 与 参考 图 像 在 每 一 
像素 位 置 上 的 灰 度 值 都 相同 时 ，MSE 获得 最 小 值 0。 至 今 ，MSE 仍然 广泛 应 用 于 大 量 的 图 像 处 理 
与 质量 评价 系统 中 ， 主 要 原因 在 于 具有 如 下 优点 。 

1) 具有 明确 的 物理 意义 ， 易 于 理解 ， 就 是 表示 所 有 像素 平均 意义 上 的 误差 ， 即 误差 信号 的 
















































































2) 计算 简单 ， 只 需要 极 小 的 计算 量 ， 在 所 有 的 质量 评价 算法 中 是 最 高 效 的 。 
3) 是 可 微分 的 ,便于 数学 运算 和 分 析 ， 因 此 适合 作为 质量 优化 的 指标 髋 入 到 图 像 处 理 系统 
中 来 指导 优化 算法 的 设计 。 比 如 在 图 像 编码 与 视频 编码 系统 (H.264、HEVC) 中 ， 常 使 用 MSE 
作为 失真 测量 并 结合 码 率 模型 进行 编码 参数 的 优化 设计 ， 以 达到 最 优 的 率 失真 优化 (Rate Distor- 
tion Optimization，RDO) 性 能 ， 即 用 最 小 的 码 率 获得 最 小 的 失真 。 

但 用 MSE 作为 图 像 质量 的 评价 指标 ， 也 具有 如 下 缺点 。 

1) MSE 完全 忽视 了 二 维 图 像 信号 内 部 像素 之 间 的 空间 相关 性 即 结构 特性 , “天 真 地 ”将 二 
维 图 像 信号 当 作 一 维 信号 来 处 理 ， 但 实际 上 图 像 信 号 尤其 在 局 部 空间 位 置 上 存在 较 大 的 相关 性 
(表现 为 场景 中 的 边缘 、 纹 理 等 结构 化 信息 ) ， 这 种 相关 性 对 于 人 有 眼 感知 图 像 质 量 有 很 大 的 影响 。 

2) MSE 将 误差 信号 与 图 像 信号 完全 割裂 开 来 ,忽略 了 图 像 的 局 部 特征 对 误差 信号 可 见 性 的 
影响 ， 即 认为 误差 信号 在 不 同 的 图 像 区 域 具有 相同 的 视觉 重要 性 。 

3) MSE 没有 反映 人 眼 观察 图 像 的 过 程 ， 与 人 眼 评价 结果 的 一 致 性 较 低 。MSE 相同 的 失真 图 
像 ， 其 主观 质量 可 能 差别 很 大 ， 反 之 ， 主 观 质量 相似 的 失真 图 像 ，MSE 可 能 差别 很 大 。 

2. 峰值 信 噪 比 

峰值 信 噪 比 (Peak Signal-to-Noise Ratio，PSNR) 定义 为 信号 最 大 可 能 的 峰值 功率 与 噪声 信 
号 的 功率 之 比 ， 因 此 可 以 看 作 是 对 MSE 从 量 纲 上 的 一 种 转换 。 设 工 表示 灰 度 图 像 最 大 的 像素 值 ， 
对 于 常见 的 8bit 量化 的 灰 度 图 像 , 工 =2 -1 =255， 则 PSNR 的 计算 公式 为 
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PSNR = 10 .Is (hE (9-4) 


=10.lgl 1 ~ 
HxRE SE Mii) -alii)? 








式 中 ,lg(. ) 表示 以 10 为 底 的 对 数 ， 计 算得 到 的 PSNR 的 单位 是 分 贝 (dB)。 由 式 (9-4) 可 见 ， 
PSNR 与 MSE 成 反比 ， 与 图 像 质量 成 正比 。 失 真 图 像 的 MSE 越 低 ，PSNR 越 高 ， 图 像 质 量 越 
好 。 一般 而 言 ， 当 失真 图 像 的 PSNR 在 35dB 以 上 时 ， 人 有 眼 几 乎 觉察 不 到 失真 ， 图 像 质量 较 高 ; 
当 PSNR 在 28dB 到 35dB 之 间 时 ， 失 真 图像 会 呈现 出 一 定 程度 的 差异 ,图像 质量 一 般 ; 当 
PSNR 在 28dB 以 下 时 ， 图 像 质 量 的 降 质 较为 明显 ， 人 有 眼 观察 会 感觉 到 不 舒适 感 。 

图 9-9 所 示 为 PSNR 随 MSE 变化 的 函数 曲线 。 比 如 ， 当 失真 图 像 与 参考 图 像 的 像素 值 平均 差异 
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为 5， 即 MSE 为 25 时 ，PSNR 约 等 于 50 
34. 15dB， 可 认为 图 像 质量 较 好 ; 当 两 
者 的 像素 值 平均 差异 为 10, 即 MSE 为 和气 
100 时 ，PSNR 约 等 于 28.13dB， 图 像 

















质量 一 般 ， 当 两 者 的 像素 值 平均 差异 “ 

为 29， 即 MSE 为 400 时 ，PSNR 约 等 鱼 | 

于 22. 11dB， 图 像 质量 较 差 。 双 
由 于 PSNR 是 从 MSE 转换 而 来 ， py 





其 与 主观 评价 结果 的 一 致 性 也 很 一 
般 。 图 像 的 PSNR 高 ， 其 主观 视觉 质 要 
量 并 不 一 定好 。 但 由 于 其 计算 上 的 简 
单 性 ， 而 且 取 值 范围 易于 被 人 们 理解 200 50 100 150 200 250 300 350 400 450 500 
和 接受 ， 目 前 PSNR 与 MSE 一 样 经 常 MSE 
作为 基本 的 质量 指标 被 广泛 地 应 用 于 图 9-9 PSNR 与 MSE 的 关系 曲线 
各 种 图 像 与 视频 处 理 系统 中 。 

3. 结构 相似 性 测量 

自然 场景 图 像 描述 了 物体 的 边缘 与 外 观 纹理 等 信息 ， 局 部 像素 之 间 具 有 很 强 的 空间 依赖 性 
或 相关 性 (Spatial Corelation) ， 表 现 出 高 度 结构 化 的 特征 。 这 种 空间 结构 信息 与 图 像 的 亮度 和 对 
比 度 相 对 独立 ， 如 亮度 或 对 比 度 的 变化 对 结构 信息 的 影响 不 大 。 而 人 眼 观 察 外 部 世界 的 过 程 可 
以 看 作 是 一 个 学 习 的 过 程 ， 经 过 多 年 的 观察 经 验 ， 善 于 从 场景 中 快速 提取 出 空间 结构 信息 以 辨 
识 物体 的 形状 和 类 别 。 相 对 于 亮度 与 对 比 度 的 变化 ， 人 有 眼 对 结构 信息 的 变化 可 能 更 加 敏感 。 因 此 
结构 信息 的 变化 可 以 作为 图 像 质量 的 一 个 评价 指标 。 

图 像 的 结构 相似 性 (Structure Similarity，SSIM) 测量 于 2004 年 由 王 舟 等 人 提出 ， 主 要 基于 
人 眼 对 图 像 局 部 结构 信息 变化 敏感 的 特性 ， 同 时 考虑 了 图 像 的 亮度 与 对 比 度 变 化 ， 结 合 三 方面 
的 相似 性 测量 进行 质量 预测 。 根 据 图 像 结构 的 局 部 化 特性 ， 一 般 是 先 对 图 像 分 块 (如 8 x8 块 ) 
测量 其 结构 相似 性 ， 再 对 所 有 块 加 权 平 均 得 到 整个 图 像 的 SSIM 值 。 设 x 和; 分 别 为 参考 图 像 式 
与 失真 图 像 了 对 应 位 置 的 划分 图 像 块 ， 图 像 块 之 间 可 以 不 重合 ,也 可 以 重 释 若干 个 像素 ,， 设 图 像 
块 大 小 相同 且 其 中 像素 的 个 数 为 N， 则 亮度 、 对 比 度 与 结构 信息 的 相似 性 计算 公式 分 别 为 
Mp, + CI 










































































L(x,¥) = (9-5) 
从 十 从， + (Ci 
20.0,+C, 

9-6 

c(%,y) P+ tC, (9-6) 
20, +C 

(1) = (9-7) 
xz 3 


式 中 ,1(x，y) 为 亮度 相似 性 ; A 为 x 的 亮度 均值 ， 定 义 为 4。= 十 六 zy c(z，y) 为 对 比 度 相似 性 ; 








为 * 的 标准 差 ， 定 义 为 9，= 有 六 (ws -所 ;7 的 亮度 均值 与 标准 差 定义 与 < 类 位 sx，y) 








为 结构 相似 性 ; 0, 为 < 与 之 间 的 协 方差 ,定义 为 = 站 六 (一 1.)(y- 记 ); CC 与 C 是 为 
了 避免 分 式 中 的 分 母 接近 于 零 时 测量 值 不 稳定 而 定义 的 经 验 性 的 小 常数 。 最 后 综合 式 (9-.5) ~ 式 (9-7) 
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得 到 图 像 块 x 和 ;之 间 的 结构 相似 性 测量 值 (SSIM) ， 计 算 公 式 为 
SSIM(x,y) =[7(x,y)]" * [eCx,y) J : [s(x,y)]Y (9-8) 

式 中 , a、B、y 是 大 于 零 的 常数 用 于 调整 亮度 、 对 比 度 与 结构 信息 对 质量 评价 的 相对 重要 程度 。 为 
简单 起 见 ， 可 认为 三 者 的 重要 性 相同 , 设置 a=B =y =1 并 且 C, = C,/2， 则 式 (9-8) 可 简化 为 
(2 + C1)(20, + C,) 
(pr tp +Ci) (0 to +C,) 
常数 C, 与 ,根据 经 验 设置 为 C, = (KL) "及 C,= (KL)*， 其 中 工 为 图 像 最 大 可 取 的 像素 值 ， 对 于 
8bit 量化 的 灰 度 图 像 ， 其 值 为 255， 而 Ki 与 ,的 取 值 分 别 为 0.01 和 0.03。 

由 此 定义 的 SSIM 指标 具有 下 列 3 个 非常 好 的 性 质 。 

1) 对 称 性 : SSIM(x, y) =SSIM(y, x%)。 

2) 有 界 性 . SSIM(x, y) 1。 

3) 具有 唯一 的 最 大 值 ， 当 目 仅 当 x =y 时 , 才 有 SSIM(x, y) =1。 

当 参 考 图 像 式 与 失真 图 像 了 对 应 位 置 图 像 块 的 SSIM 指标 计算 之 后 ， 整 个 图 像 X 与 Y 之 间 的 
SSIM 指标 可 根据 各 图 像 块 的 重要 程度 加 权 平 均 来 计算 ， 计 算 公式 为 



























































SSIM(x,y) = 





(9-9) 















































M 
2 ,Cs%) » SSIM(%;,),) 
SSIM(X,Y) = 三 





M (9-10) 
2 oi(%,9) 
式 中 ，M 为 图 像 块 数 ，w,(%,，y,) 为 第 j 个 图 像 块 的 重要 程度 ， 可 根据 图 像 内 容 而 变化 。 最 简单 
的 可 认为 各 图 像 块 的 重要 性 相同 ， 即 对 所 有 的 j，w,(x,，y) =1， 式 (9-10) 可 简化 为 如 下 形式 : 


M 
SSIM(X,Y) = 7 DSSIM(%,,»,) (9-11) 
i 


SSIM 在 质量 预测 的 准确 性 和 计算 高 效 性 方面 取得 了 较 好 的 平衡 ， 自 提出 以 来 获得 了 广泛 认 
可 ， 被 应 用 到 图 像 处 理 的 多 个 领域 。 总 结 起 来 ，SSIM 图 像 质量 评价 方法 具有 如 下 特点 。 

1) 基于 自 顶 向 下 的 方式 利用 了 HVS 对 图 像 质量 的 感知 规律 ， 避 免 了 对 HVS 底层 机 制 建 模 
的 复杂 性 和 不 确定 性 。 

2) 相 比 MSE 和 PSNR， 其 评价 结果 具有 更 高 的 准确 性 ,与 人 眼 主 观 评价 分 ( MOS) 更 加 
一 致 。 

3) 具有 和 较 低 的 计算 复杂 度 ， 便 于 散 入 到 图 像 处 理 系 统 中 来 评价 质量 或 优化 算法 。 

4. SSIM 算法 的 扩展 

SSIM 算法 的 提出 对 于 IQA 领域 具有 里 程 碑 的 意义 ， 之 后 也 出 现 了 很 多 SSIM 的 改进 算法 。 在 
此 介绍 两 种 重要 的 SSIM 改进 算法 。 

(1) 多 尺度 结构 相似 性 (MS-SSIM ) 

当 人 眼 观察 图 像 时 ， 观 察 条 件 (如 显示 器 分 辩 率 与 观察 距离 ) 对 感知 结果 影响 很 大 。 比 如 
分 别 从 远 距 离 和 近 距 离 观 察 图 像 ， 接 收 到 的 信息 或 失真 大 不 一 样 ， 远 距离 观察 只 能 看 到 场景 中 
的 大 体 轮廓 ， 而 近 距 离 观 察 可 以 看 到 场景 中 的 细节 。 但 SSIM 并 没有 考虑 观察 条 件 对 图 像 质量 的 
影响 ， 仅 从 单一 尺度 进行 结构 相似 性 测量 ， 这 是 SSIM 的 一 个 缺点 。 如 果 在 相似 性 测量 之 前 ， 先 
将 图 像 变 换 到 不 同 尺 度 ， 以 模拟 不 同 的 观察 条 件 ， 将 使 评价 结果 与 人 眼 感 知 更 加 一 致 。 由 此 ， 多 
尺度 结构 相似 性 (Multi- Scale Structure Similarity，MS-SSIM) 应 运 而 生 。 

生成 多 种 尺度 图 像 的 方法 有 很 多 ,一般 是 通过 低 通 滤波 再 下 采样 的 方式 得 到 类 似 于 “金字 
塔 ”的 多 尺度 图 像 描述 。 将 原始 图 像 大 小 作为 尺度 1， 先进 行 高 斯 低 通 滤波 或 平均 滤波 ， 再 对 滤 
波 后 的 图 像 进行 因子 为 2 的 下 采样 ， 即 宽度 和 高 度 都 降 为 原来 的 一 半 ， 得 到 尺度 2 图 像 ， 以 此 进 
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行 K-1 次 ,可 得 到 尺度 KK 图像。 在 参考 图 像 与 失真 图 像 的 第 j 个 尺度 上 ,计算 对 比 度 与 结构 信 
息 的 相似 性 测量 ， 而 只 在 尺度 天 上 计算 亮度 相似 性 。 最 后 联合 不 同 尺度 的 相似 性 测量 结果 得 到 
失真 图 像 的 MS-SSIM 测量 值 ， 整 体 算法 框架 如 图 9-10 所 示 。 



























































图 9-10 ”MS-SSIM 算法 框架 





多 尺度 结构 相似 性 的 具体 计算 公式 为 
MS - SSIM(X,Y) = [LA(X,Y)]™ -IIrs X,Y) Js (X,Y) ]” (9-12) 


式 中 ,1.(X,，7) 为 尺度 的 亮度 相似 性 ; c,(X,Y) 与 。 (对 ，7Y) 分 别 为 尺度 7 的 对 比 度 相似 性 
与 结构 相似 性 ; ak、B)、 y 是 相应 分 量 的 相对 重要 性 权重 。 为 了 简单 起 见 ， 可 将 相同 尺度 下 不 同 
分 量 的 重要 性 权重 设置 为 相同 值 ， 即 a =B; =y,， 而 不 同 尺 度 的 重要 性 权重 设置 为 不 同 值 。 

以 将 图 像 变换 到 5 个 尺度 为 例 (K=5)， 并 将 不 同 尺度 的 结构 信息 权重 之 和 规范 化 为 1， 即 
> = 1, 根据 大 量 实验 确定 的 不 同 尺度 的 各 分 量 权重 经 验 值 为 B, =y, =0.0448，B, =7, = 
0.2856，B, =y, =0.3001，B, =Y =0.2363 ，os =B; =Ys =0.1333。 可 见 ， 中 间 尺 度 的 权重 较 大 ， 其 
余 尺度 的 权重 较 小 ， 这 与 HVS 特性 是 相符 的 ， 即 人 眼 对 中 间 尺 度 的 图 像 信息 最 为 敏感 ， 随 着 尺度 
变 大 或 变 小 ， 人 眼 对 图 像 信 息 的 敏感 性 逐渐 变 小 。 

(2) 复 小 波 域 结构 相似 性 ( CW-SSIM) 

SSIM 与 MS-SSIM 都 是 从 空域 上 测量 图 像 的 结构 相似 性 ， 要 求 失真 图 像 与 参考 图 像 的 像素 必 
须 在 空间 位 置 上 准确 对 齐 ， 否 则 预测 结果 的 偏差 将 非常 大 。 这 不 仅 是 空域 SSIM 算法 的 主要 缺 
点 ， 也 是 目前 绝 大 多 数 IQA 算法 的 缺点 ， 即 当 失 真 图 像 与 参考 图 像 的 像素 位 置 空间 不 对 齐 时 
(比如 存在 平移 、 旋 转 、 缩 放 等 几何 失真 时 ) 评价 结果 不 准确 。 

首先 对 参考 图 像 与 失真 图 像 进行 复数 小 波 的 可 操作 金字 塔 变换 ( Steerable Pyramid Trans- 
form) ， 将 图 像 分 解 为 多 个 子 带 ， 对 各 个 子 带 的 复数 小 波 系数 分 块 (如 7 x7 块 ) 测量 相似 性 ， 最 
后 对 所 有 子 带 的 分 块 相似 性 进行 平均 得 到 总 体 的 相似 性 值 ， 复 小 波 域 结构 相似 性 ( Complex 
Wavelet Structure Similarity，CW-SSIM) 的 计算 公式 为 

2 3 
Ca 
式 中 ,c= {cli=1,2,…,N| 与 6 =|6 ,li=1,2,…,N| 分 别 是 参考 图 像 与 失真 图 像 经 未 复 小 波 
变换 后 从 相同 子 带 的 相同 位 置 分 块 提取 的 小 波 系数 ， c 表示 系数 c 的 复数 共 斩 ,天 是 为 防止 分 母 
接近 于 零 测 量 值 不 稳定 而 设置 的 小 的 正 数 。 可 见 ，CW-SSIM 的 计算 形式 与 SSIM 类 似 ， 是 从 空域 
SSIM 到 复 小 波 域 CW-SSIM 的 扩展 ， 对 图 像 亮度 或 对 比 度 的 变化 以 及 小 的 几何 失真 都 不 敏感 。 相 
比 MSE 与 SSIM，CW-SSIM 在 失真 图 像 与 参考 图 像 空 间 位置 不 对 齐 时 仍 能 得 到 稳定 准确 的 质量 评 
价 结 果 ， 这 一 优点 使 得 在 进行 质量 评价 之 前 不 需要 采用 复杂 的 算法 完成 图 像 配 准 ， 有 效 降 低 了 
质量 评价 的 复杂 度 和 难度 。 





































































































CW -SSIM(c ,c ) = 





(9-13) 
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为 








CW-SSIM 对 几何 失真 鲁 棒 的 依据 在 于 : 1) 空域 中 轻微 的 平移 、 旋 转 和 缩放 在 复 小 波 域 中 表 
现 为 全 部 小 波 系数 一 致 的 相位 变化 (Phase Changes); 2) 相 比 频 域 系 数 的 幅度 ， 频 域 系 数 的 相 
位 模式 携带 了 更 多 关于 图 像 局 部 结构 的 信息 。 

5. 信息 保 真 度 准则 

基于 信号 保 真 度 (Signal Fidelity) 的 评价 方法 (如 MSE 与 PSNR) 是 从 底层 信号 级 进行 误差 
比较 ， 由 此 判定 图 像 质量 ， 与 人 眼 感知 图 像 的 机 理 不 相符 ， 因 而 导致 质量 评价 的 效果 一 般 。 而 基 
于 信息 保 真 度 准 则 ( Information Fidelity Criterion, IFC) 的 评价 方法 是 从 中 高 层 语义 级 进行 质量 
判定 ,与 人 眼 感 知 机 理 较 为 一 致 ， 是 男 一 类 有 代表 性 的 质量 评价 方法 。 这 类 方法 从 信息 论 的 观点 
出 发 ， 将 图 像 失真 的 过 程 看 作 是 参考 图 像 的 信息 经 过 易 错 信道 传输 后 信息 丢失 的 过 程 。 在 信道 
传输 过 程 中 ， 引 入 的 失真 越 大 ， 则 信息 丢失 的 越 多 ， 接 收 到 的 图 像 中 保留 的 信息 越 少 ， 图 像 质 量 
越 低 ， 反 之 亦 然 。 

设 信 道 的 输入 (发送 端 为 无 失真 的 参考 图 像 X， 信 道 的 输出 (接收 端 为 失真 图 像 了 ， 基 
于 IFC 的 方法 首先 对 图 像 信 源 特性 与 信道 失真 特性 合理 建 模 ， 之 后 通过 测量 失真 图 像 了 与 参考 网 
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像 式 之 间 的 互信 息 (Mutual Information) 的 大 小 来 定量 地 确定 失真 图 像 的 质量 。 基 于 信息 保 真 度 
准则 质量 评价 方法 的 基本 框架 如 下 图 9-11 所 示 。 


发 送 端 塘 py 本 接收 端 二 a . 














参考 图 像 X 











图 9-11 基于 信息 保 真 度 质量 评价 方法 框架 


1) 图 像 信 源 模型 : 对 图 像 的 建 模 是 基于 自然 场景 统计 特性 (Natural Scene Statistics ，NSS ) ， 

即 自 然 场景 中 的 图 像 与 视频 信号 在 所 有 可 能 的 信号 空间 中 仅仅 占据 很 小 的 一 个 子 空间 ， 这 个 子 
空间 具有 一 定 的 结构 ， 可 以 通过 构建 适当 的 模型 及 其 统计 特征 进行 描述 。 也 就 是 说 ， 自 然 无 失真 
的 图 像 在 某 些 统计 属性 或 特征 参数 上 具有 规律 性 ， 这 种 规律 性 不 依赖 于 具体 的 图 像 内 容 ， 如 室 
内 人 造物 体 或 户外 自然 景物 。 图 像 失 真 后 会 使 人 感觉 “不 自然 "， 这 种 “不 自然 ”表现 在 模型 上 
将 使 得 统计 规律 发 生变 化 ， 从 而 偏离 自然 图 像 所 构成 的 子 空间 。 
具体 而 言 ， 可 以 先 对 图 像 进行 多 尺度 多 方向 的 小 波 变换 以 模拟 HVS 对 图 像 信 号 的 分 解 ， 如 
使 用 可 操作 金字 塔 变换 ， 之 后 使 用 高 斯 尺度 混合 (Gaussian Scale Mixture，GSM) 模型 在 小 波 变 
换 域 (Wavelet Transform Domain) 对 具有 自然 图 像 统计 特性 的 子 带 系数 进行 建 模 。 记 对 参考 图 像 
蕊 做 金字 塔 小 波 分 解 后 子 带 天 的 小 波 系数 向 量 表示 为 C, = | Cli=1,2,…,N,| ， 其 中 NN, 表示 子 带 
到 的 小 波 系数 的 个 数 ， 由 于 C, 服 从 GSM 分 布 ， 因 此 C, 可 写成 如 下 形式 : 

C=SU,= {SU,, i=1, 2，…，N| (9-14) 
式 中 ，S, = 15,1i=1,2,…,N,| 是 正 数 组 成 的 随机 向 量 ，U, = | U1li=1,2,…,N,| 是 服从 均值 
为 零 方差 为 的 高 斯 分 布 的 随机 向 量 ，S, 与 U, 两 者 相互 独立 。 根 据 自然 场景 图 像 在 小 波 变 换 域 
的 分 布 特性 ， 系 数 向 量 C, 的 边缘 分 布 具 有 尖峰 和 重 尾 特 性 ， 即 在 给 定 $, 的 一 个 实现 % 时 ，C, 服 
从 均值 为 零 方差 为 ov 的 高 斯 分 布 。 
2) 信道 失真 模型 .信道 失真 模型 可 在 小 波 变 换 域 中 对 子 带 系数 使 用 简单 的 信号 衰减 与 加 性 
高 斯 噪声 来 模拟 ， 形 式 如 下 : 

D,=GC, +V,= {gC + Vli=1,2,.,N,| (9-15) 
式 中 ，C, 表 示 参 考 图 像 世 小波 分 解 后 子 带 天 的 系数 随机 向 量 ， 刀 = 1D;1i=1,2,…,N;| 表示 失 
真 图 像 了 小 波 分 解 后 相应 子 带 开 的 系数 随机 向 量 ，G, = {G41i=1,2,…,N;| 是 一 个 确定 性 的 随 
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像 己 视 频 的 质量 评价 


机 向 量 来 模拟 信号 衰减 ， 对 应 于 子 带 系数 能 量 衰减 导致 的 细节 模糊 失真 ，V, = | Vili=1,2,…， 
NN,| 是 均值 为 零 方差 为 ory 的 随机 向 量 来 模拟 加 性 高 斯 噪声 ， 对 应 于 图 像 的 噪声 失真 。 上 式 假 定 
图 像 中 出 现 的 大 多 数 类 型 的 失真 可 由 信号 衰减 加 上 高 斯 噪声 来 模拟 。 

确定 图 像 信 源 与 信道 失真 模型 后 ， 可 使 用 参考 图 像 与 失真 图 像 之 间 的 互信 息 来 评价 图 像 的 
质量 。 对 于 确定 的 参考 图 像 筷 ， 其 信 源 模型 中 子 带 大 的 随机 向 量 $, 有 确定 的 实现 s,。 则 基于 信息 
保 真 度 的 失真 图 像 的 质量 可 定义 为 参考 图 像 与 失真 图 像 了 小 波 分 解 后 所 有 子 带 之 间 的 条 件 互 
信息 之 和 I(C;D1s)， 首 先 定义 第 个 子 带 的 条 件 互信 息 为 



































































































































I(CisDil s,) = B13D, s,) (9-16) 
根据 条 件 互 信息 和 高 斯 分 布 信息 炉 的 定义 ， 可 得 到 一 个 子 带 内 条 件 互 信息 的 具体 计算 公式 为 























N, 
1(Ci;D, | s,) = PTC;D; | si) 
i=1 
N, 
= > (h(Dil sn) 一 AD Ci,s)) (9-17) 
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1 站 2 加 og 
= 二 os 二 
2 i=1 se 


最 后 失真 图 像 质量 指标 (Image Quality Index，IQI1) 由 所 有 子 带 条 件 互 信息 之 和 得 到 ， 具 体 计算 
公式 为 





IOI(X,Y) = I(C;D1 s) = YsD, s,) (9-18) 


式 中 , 为 多 尺度 多 方向 小 波 分 解 的 子 带 数 目 。 

需要 注意 的 是 ， 基 于 信息 保 真 度 准则 的 IQI 是 质量 属性 ， 而 不 是 失真 属性 。 其 最 小 值 为 0， 表 
示 失 真 图 像 丢 失 了 参考 图 像 的 所 有 信息 ; 最 大 值 可 以 为 无 穷 大 ， 表 示 失 真 图 像 没 有 丢失 任何 信 
息 。 因 此 ，IQI 的 值 越 大 ， 则 失真 图 像 的 质量 越 好 。IQI 的 质量 评价 性 能 相 比 MSE 与 PSNR 要 好 
很 多 ， 比 单 尺度 结构 相似 性 (SSIM) 稍 好 。IQI 的 计算 复杂 度 稍 大 ， 主 要 计算 花费 在 图 像 的 多 尺 
度 多 方向 的 小 波 分 解 上 ， 总 体 计 算 时 间 大 概 是 SSIM 的 5 ~ 10 倍 ， 但 是 基于 信息 保 真 度 的 评价 方 
法 为 图 像 与 视频 的 质量 评价 提供 了 一 个 新 的 思路 ， 而 且 通 过 更 精确 的 信 源 、 信 道 与 感知 建 模 ， 有 
望 取 得 更 好 的 质量 评价 性 能 。 


9.3.3 半 参 考 图 像 质 量 评价 


相 比 全 参考 IQA， 半 参考 与 无 参考 的 IQA 研究 进展 较为 缓慢 。 半 参考 IQA 由 于 只 能 利用 参考 
图 像 的 部 分 特征 或 参数 作为 评价 依据 ， 甚 准确 性 也 不 及 全 参考 IQA 方法 ， 且 准确 性 会 依赖 于 所 
参考 的 特征 数据 量 的 大 小 。 如 果 将 图 像 失 真 的 过 程 看 作 是 参考 图 像 通过 易 错 信道 信息 丢失 的 过 
程 ， 则 从 参考 图 像 提取 的 特征 可 以 通过 辅助 信道 传输 到 接收 端 ， 假 定 辅助 信道 不 产生 失真 ， 接 收 
端 通过 提取 失真 图 像 的 特征 并 与 从 辅助 信道 接收 到 的 参考 图 像 的 特征 做 比较 ， 即 可 评价 失真 图 
像 的 质量 。 需 要 注意 的 是 ， 参 考 图 像 的 特征 可 以 用 来 指导 接收 端 失 真 图 像 的 特征 提取 过 程 。 半 参 
考 图 像 质量 评价 的 基本 框架 如 图 9-12 所 示 。 

半 参 考 图 像 质量 评价 的 性 能 常 依赖 于 所 参考 的 特征 数据 量 的 大 小 ， 一 般 而 言 ， 所 参考 的 特 
征 数据 量 越 大 ， 则 可 利用 的 信息 就 越 多 ， 准 确 性 越 高 ， 反 之 亦 然 。 极 端 情况 是 ， 当 参考 图 像 的 全 
部 信息 都 作为 特征 传输 到 接收 端 时 ， 半 参考 IQA 就 变 成 了 全 参考 IQA; 反之 ， 当 从 参考 图 像 传输 
的 特征 数据 量 为 零 ， 则 半 参 考 IQA 就 成 为 无 参考 IQA。 因 此 ， 在 评价 半 参 考 IQA 方法 的 性 能 时 ， 
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图 9-12 ” 半 参 考 图 像 质量 评价 方法 框架 


常 把 质量 预测 的 准确 性 和 所 参考 的 特征 数据 量 的 大 小 综合 考虑 ， 即 希望 利用 较 少 的 特征 数据 
来 得 到 较 好 的 质量 预测 准确 性 。 

半 参 考 IQA 中 所 提取 的 特征 对 其 性 能 至 关 重 要 ， 要 求 提取 的 特征 至 少 满足 下 列 特性 。 

1) 所 提取 的 特征 与 人 眼 感知 质量 紧密 相关 ， 即 一 旦 特征 发 生变 化 ， 则 人 有 眼 感知 质量 随 之 
改变 。 

2) 特征 能 准确 高 效 地 表达 参考 图 像 与 失真 图 像 的 信息 。 

3) 所 提取 的 特征 对 不 同类 型 不 同 程度 的 失真 具有 不 同 的 敏感 性 ， 即 不 同 的 失真 将 使 特征 产 
生 不 同 的 变化 。 

半 参 考 IQA 方法 的 研究 目前 还 比较 少 ， 尤 其 是 各 方面 性 能 均 得 到 广泛 认可 的 不 多 。 本 小 节 
仍然 从 信息 论 的 角度 出 发 ,介绍 一 种 基于 烂 差 分 (Entropy Difference，ED) 的 半 参 考 IQA 方法 ， 
这 种 方法 由 Alan Bovik 等 人 于 2012 年 提出 。 

与 全 参考 IQA 中 基于 信息 论 的 质量 评价 方法 的 原理 类 似 ， 这 种 基于 粹 差分 的 半 参 考 IQA 方 
法 同样 使 用 高 斯 尺度 混合 (GSM) 模型 对 自然 图 像 小 波 分 解 后 的 子 带 系数 进行 建 模 ， 如 使 用 可 
操作 金字 塔 变换 将 参考 图 像 与 失真 图 像 分 解 为 不 同方 向 和 尺度 的 小 波 子 带 。 之 后 ， 将 失真 图 像 
的 小 波 子 带 系数 使 用 GSM 分 布 进行 近似 ， 并 通过 测量 失真 图 像 与 参考 图 像 相应 子 带 之 间 的 小 波 
系数 炉 的 差分 来 评价 失真 图 像 的 质量 。 

基于 炉 差 分 的 半 参 考 IQA 方法 的 大 体 步 又 如 下 。 

1) 将 参考 图 像 X 与 失真 图 像 了 做 多 尺度 多 方向 的 小 波 分 解 ， 设 子 带 总 数 为 K， 将 子 带 中 
的 小 波 系数 划分 为 M, 个 大 小 相同 的 不 重生 块 ， 每 个 块 包含 NN 个 系数 ， 即 块 的 大 小 为 VN x VN， 
假设 这 些 块 是 独立 同 分 布 的 。 设 C, = (C，,C,，,…,Cw,) 表示 参考 图 像 X 子 带 上 中 第 m 块 的 小 
波 系数 向 量 ， 其 服从 GSM 分 布 ， 可 写 为 C,, =S,,U,,， 其 中 S$,, 表 示 随 机 向 量 ，U, 为 服从 均值 为 
零 方 差 为 ox 的 高 斯 分 布 随机 向 量 。 当 5 确定 一 个 实现 5, 时 ， 子 带 系数 C,, 服 从 均值 为 零 方差 为 
sou 的 高 斯 分 布 。 失 真 图 像 了 由 于 存在 失真 会 使 系数 分 布 偏离 CSM， 偏 离 的 程度 恰 可 以 作为 
衡量 失真 的 准则 。 因 此 ， 同 样 使 用 GSM 对 失真 图 像 小 波 分 解 子 带 左 的 系数 娓 ,进行 建 模 ， 记 为 
万 ,= 了 TV ， 其 中 了 ,表示 随机 向 量 ， 有 ,为 服从 均值 为 零 方 差 为 oy 的 高 斯 分 布 随机 向 量 。 

2) 人 有 眼 观察 图 像 时 会 由 于 视觉 神经 的 处 理 而 引入 不 确定 性 ， 这 种 不 确定 性 可 通过 对 小 波 系 
数 加 上 高 斯 噪声 来 模拟 ， 可 用 下 式 表 示 : 

CU =C + W,,, D',=D,, +W’, (9-19) 
式 中 ，C' 与 D' 表 示 参 考 图 像 与 失真 图 像 相应 子 带 系数 加 入 视觉 处 理 噪 声 之 后 的 系数 向 量 ;，W,, 
与 W' 表 示 服 从 均值 为 零 方 差 为 o%1, 的 高 斯 分 布 的 随机 向 量 ， 两 者 相互 独立 。 

3) 设 协 方差 矩阵 o% 满 秩 ， 其 特征 值 为 ou ,a ,… ,ay,; 同样 ， 协 方差 矩阵 o 的 特征 值 为 
Bu, Bu，… ,Bvt， 则 在 给 定 5,, = 与 7， =t,, 时 ， 参考 图 像 与 失真 图 像 子 带 中 第 m 块 的 条 件 炉 
的 计算 公式 为 
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ACT sa) = Fog (2re) "Cs oh 1 + 0%1,)] 
i (9-20) 
有 1 2 2 
= 之 71log[ (2re) (sau + 0%)] 























hl(D | 二 > log[(2re) (th JB + 0%) | (9-21) 


4) 计算 参考 图 像 与 失真 图 像 相 应 小 波 子 带 之 间 的 炉 差 分 RRED ( Reduced Reference Entropy 
Difference) ， 作 为 半 参 考 IQA 的 指标 ， 计 算 公 式 为 


RREDY -> IC sa) -yuh(D'l ta) | (9-22) 


式 中 ,y=1log,(1+s2%) 与 y=log,(1+ 刀 2,) 为 两 个 缩放 因子 来 引入 局 部 块 特 性 对 炉 的 影响 ，; 
"0 通过 选择 参考 图 像 的 某 些 子 带 以 及 子 带 中 的 某 些 块 计算 炉 作为 辅助 信 
， 与 失真 图 像 相 应 块 的 炉 计算 差分 ， 来 实现 依赖 不 同 数据 量 的 半 参 考 IQA。 很 明显 ， 参 与 比较 
的 下 用 了 RRED 指标 越 可 靠 ， 质 量 评价 越 准确 。 值 得 注意 的 是 ，RRED 
一 种 半 参 考 的 IQA 方法 , 但 其 质量 预测 的 准确 性 超过 了 全 参考 的 MSE 和 PSNR， 与 全 参考 的 
9 双 基 主 信息 癌 训 让 的 Jon 六 站 相当 。 


9.3.4 无 参考 图 像 质量 评价 


从 实际 应 用 的 角度 来 看 ， 无 参考 IQA 比 全 参考 与 半 参 考 的 IQA 具有 更 大 的 应 用 价值 。 因 为 
在 大 多 数 情况 下 ， 没 有 无 失真 的 参考 图 像 可 供 利 用 ， 比 如 典型 的 网 像 通信 系统 中 接收 端的 质量 
评价 。 而 通过 辅助 信道 传输 参考 图 像 的 部 分 特征 无 疑 会 增加 系统 实现 的 难度 和 成 本 。 因 此 ， 开 发 
无 参考 的 IQA 方法 越 来 越 成 为 研究 的 热点 。 

从 计算 机 的 角度 来 看 ， 相 比 全 参考 与 半 参 考 的 IQA， 无 参考 IQA 无 疑 是 最 困难 的 ， 因 为 没有 参 
考 信 息 可 以 参照 ， 只 能 根据 失真 图 像 自 身 的 信息 对 其 质量 进行 评估 。 但 对 于 人 眼 来 说 ， 无 参考 IQA 
又 极为 简单 ， 人 了 眼 不 需要 参考 图 像 就 可 以 直接 对 失真 图 像 的 质量 做 出 准确 快速 的 判断 。 这 是 因为 人 
眼 在 长 时 间 观 察 外 部 场景 的 过 程 中 ,已 经 “学 习 ” 到 了 不 同类 型 图 像 与 其 质量 之 间 的 对 应 关系 ， 形 
成 了 对 图 像 进行 质量 评估 的 经 验 。 人 脑 中 存 有 哪些 图 像 是 “好 的 "、 哪 些 图 像 是 “不 好 的 ”"”、 甚 至 
图 像 为 什么 是 “不 好 的 ”此 类 相关 知识 ， 正 是 这 些 知识 帮助 人 眼 对 图 像 质量 做 出 准确 的 判断 。 

在 使 用 计算 机 设计 无 参考 IQA 方法 时 ， 可 以 模拟 人 眼 进行 无 参考 质量 评价 的 方法 学 ， 即 假 
定 存在 一 个 无 失真 的 具有 完美 质量 的 参考 图 像 模 板 或 其 统计 特征 作为 先 验 知识 来 辅助 进行 失真 
图 像 的 质量 判断 。 无 参考 IQA 的 基本 思路 是 : 认为 无 失真 的 自然 图 像 在 空域 或 变换 域 (如 小 波 
域 、DCT 域 等 ) 具有 某 些 统计 特征 ， 而 不 同类 型 不 同 程度 的 失真 将 使 这 些 统计 特征 发 生 相 应 的 
变化 ， 因 此 通过 对 失真 图 像 提 取 有 效 的 特征 ， 并 与 人 工 标 定好 的 主观 质量 分 (MOS) 一 起 组 成 
训练 集 ， 使 用 机 器 学 习 的 方法 得 到 训练 集中 特征 与 质量 分 的 映射 关系 ， 之 后 对 要 评价 质量 的 测试 
图 像 ， 通 过 提取 相应 的 特征 ， 用 训练 好 的 映射 关系 即 可 得 到 其 主观 评价 分 。 需 要 注意 的 是 ， 这 个 假 
定 的 参考 图 像 模 板 或 统计 特征 是 根据 大 量 自然 场景 特性 统计 (NSS) 得 到 ， 具 有 统计 意义 ， 并 不 对 
应 于 某 一 个 确定 的 失真 图 像 。 因 此 ， 一 般 来 讲 ， 无 参考 IQA 的 准确 性 相 比 有 依据 的 全 参考 与 半 参 考 
IQA 的 准确 性 要 低 一 些 。 男 外 ， 无 参考 IQA 的 准确 性 依赖 于 所 提取 的 特征 与 视觉 质量 的 相关 性 ， 相 
关 性 越 大 ， 则 质量 预测 的 准确 性 越 高 。 

自然 场景 统计 特性 (NSS) 既 可 以 从 空域 建 模 ， 也 可 以 从 频 域 (如 小 波 域 、DCT 域 等 ) 建 
模 ， 从 空域 就 是 基于 像素 之 间 的 统计 关系 ， 而 从 频 域 则 是 基于 频 域 系数 之 间 的 统计 规律 。 前 面 介 
绍 的 有 些 全 参考 与 半 参 考 IQA 从 小 波 域 进行 了 分 析 ， 本 小 节 介 绍 一 种 DCT 域 的 自然 场景 建 模 方 
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法 和 特征 提取 方法 ， 以 及 基于 DCT 系数 特征 的 无 参考 IQA 方法 。 
首先 给 出 基于 DCT 系数 特征 的 无 参考 IQA 方法 的 基本 框架 ， 如 图 9-13 所 示 。 


像 己 视频 处 理 





























到 9-13 ”无 参考 图 像 质量 评价 方法 框架 

如 图 9-13 所 示 ， 基 于 DCT 系数 特征 的 无 参考 IOA 的 大 体 实现 步骤 如 下 。 

1) 在 训练 阶段 ， 由 一 些 失 真 图 像 及 其 主观 评价 分 组 成 训练 集 。 对 每 一 个 失真 图 像 ， 先 进行 
高 斯 低 通 滤 波 和 下 采样 ， 生 成 多 尺度 的 图 像 表达 来 模拟 不 同 的 人 眼 观察 距离 ， 之 后 对 图 像 分 块 


(如 5 x5 块 ) 做 二 维 的 DCT， 得 到 局 部 块 的 DCT 系数 。 
2) 对 DCT 系数 块 分 别 按照 方向 特性 与 
" 国 加 回回 
C21 | C22 | C23 | C24 | C25 





























频率 特性 划分 为 不 同 的 子 带 ， 如 5 x5 块 的 

划分 可 按 图 9-14 所 示 ， 按 方向 划分 可 捕获 

方向 特性 ， 按 频率 划分 可 捕获 低频 、 中 频 与 

高 频 信息 的 特性 。 当 然 划 分 的 方式 并 不 唯 

一 ， 只 要 能 表达 不 同 的 图 像 特性 即 可 。 
之 后 ， 对 子 带 系数 用 广义 高 斯 分 布 

( Generalized Gaussian Distribution，GGD) 模 Bh ess 

型 来 拟 合 ，CCD 模型 可 用 式 (9-23) 表示 。 a 按 方向 划分 b) 按 频率 划分 

flxla,B,y) =ae ec (9-23) 图 9-14 DCT 系数 划分 
式 中 , jw 是 均值 ; a 是 正则 化 参数 ; B 是 尺 
度 参 数 ; y 是 形状 参数 。a 与 B 的 定义 为 


BY 1 /LIL(3/Y) 
w= a Ty) 6000 
式 中 ， 为 标准 差 ; 了 是 Gamma 丽 数 ,定义 为 T(z) = | Ye-dr。 CCD 是 高 斯 分 布 的 广义 形式 ， 


比 高 斯 分 布 具有 更 强 的 表达 能 力 ，GGD 模型 在 形状 参数 y =2 时 就 退化 为 高 斯 模型 。 将 所 有 DCT 
块 的 不 同 子 带 用 CCD 模型 拟 合 后 ， 即 得 到 模型 参数 ， 将 形状 参数 y 作为 图 像 质量 相关 的 特征 ， 
因为 失真 会 使 DCT 系数 的 分 布 形状 发 生变 化 。 

3) 对 每 一 个 DCT 块 提取 DCT 频 域 系数 幅度 的 变化 特征 ， 定 义 为 

ciz [TOTGD) 
| PAW) - 

式 中 ，| XI 为 DCT 系数 幅度 向 量 ， 此 特征 描述 了 系数 幅度 的 能 量 分 布 与 其 平均 值 的 关系 。 

4) 对 每 一 个 DCT 块 提取 高 频 子 带 与 中 频 及 低频 子 带 能 量 比率 特征 ， 来 描述 局 部 块 内 子 带 间 
的 能 量变 化 ， 因 为 DCT 低频 系数 对 应 图 像 中 的 平坦 区 域 、 中 频 系 数 对 应 于 图 像 中 的 边界 特征 、 
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高 频 系数 则 对 应 于 图 像 中 的 纹理 细节 ， 而 失真 (比如 压缩 、 模 糊 等 ) 会 使 图 像 纹 理发 生变 化 ， 
反映 在 DCT 系数 上 则 是 不 同 子 带 能 量 的 变化 。 
5) 特征 提取 后 ， 即 可 与 主观 质量 分 组 成 训练 特征 集 ， 用 机 器 学 习 的 方法 学 习 特 征 与 质量 分 
的 函数 关系 。 
6) 在 测试 阶段 ， 拿 到 一 个 要 评价 的 失真 图 像 ， 使 用 与 训练 阶段 相同 的 方法 提取 特征 ， 根 据 
训练 好 的 特征 与 质量 分 的 函数 关系 ， 即 可 得 到 失真 图 像 的 质量 评分 。 
需要 注意 的 是 ， 无 参考 IQA 因为 没有 对 应 的 参考 图 像 作 为 评价 依据 ， 因 此 一 般 都 会 有 一 个 
训练 的 过 程 来 学 习 失 真 图 像 特 征 与 质量 分 的 映射 关系 ， 训 练 时 所 使 用 的 机 咽 学 习 方 法 与 所 用 的 
训练 集 的 大 小 和 质量 会 对 预测 效果 有 一 定 的 影响 。 比 如 某 个 测试 图 像 的 失真 类 型 没有 在 训练 集 
的 失真 图 像 中 出 现 过 ， 其 质量 预测 结果 很 可 能 就 不 太 好 ， 因 为 对 于 机 器 来 说 ， 这 是 一 个 “陌生 
的 ”图 像 失真 类 型 ， 如 同人 眼 对 某 种 失真 陌生 一 样 。 
另外 ， 目 前 无 参考 IQA 的 准确 性 一 般 不 如 全 参考 与 半 参 考 的 IJQA， 但 根据 算法 利用 的 HVS 
特征 的 不 同 ， 有 些 无 参考 IQA 的 准确 性 已 经 超过 简单 的 MSE 与 PSNR， 甚 至 能 达到 或 超过 SSIM 
的 预测 性 能 。 本 小 节 所 介绍 的 基于 DCT 特征 的 无 参考 IQA 就 具有 较 好 的 准确 性 ， 其 质量 预测 性 
能 与 SSIM 相当 。 使 用 DCT 域 特征 的 一 个 优点 是 ，DCT 变换 具有 快速 算法 ， 其 计算 复杂 度 相 比 多 
尺度 多 方向 的 小 波 变 换 要 小 很 多 。 而 且 ， 现 在 很 多 流行 的 图 像 与 视频 编码 标准 中 (比如 JPEC、 
MPEG-2、H. 264 和 HEVC) ， 都 是 使 用 类 似 DCT 的 变换 ， 这 就 为 压缩 域 中 的 图 像 质量 评价 提供 了 
可 能 ， 因 为 对 压缩 码 流 部 分 解码 即 可 得 到 DCT 系数 ， 而 不 需要 完全 解码 ， 这 在 对 实时 性 要 求 较 
高 的 网 络 节 点 中 的 图 像 质量 监控 尤其 重要 。 
如 前 所 述 ， 自 然 场 景 统计 特性 ( NSS) 可 从 空域 或 频 域 (如 小 波 域 、DCT 域 ) 进行 建 模 ， 
不 同 域 的 系数 特性 不 尽 相 同 ， 因 此 使 用 的 模型 也 不 尽 相 同 ， 开 发 更 好 的 模型 对 系数 进行 准确 建 
模 是 设计 IQA 算法 的 基础 。 模 型 确定 后 ， 如 何 挑选 或 设计 质量 相关 的 特征 表达 ， 是 IQA 算法 研 
究 的 重 中 之 重 。 
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9.4 视频 质量 的 客观 评价 


视频 质量 评价 (VQA) 相 比 图 像 质量 评价 (IQA) 更 加 困难 ， 这 主要 体现 在 以 下 三 点 : 
1) 处 理 的 信号 更 加 复杂 ， 视 频 信 号 相 比 图 像 信号 多 了 一 维 时 域 信息 ( 即 运动 信息 )， 视 频 信号 
本 身 特性 的 建 模 更 为 困难 ; 2) 视频 中 既 存 在 空域 失真 (如 压缩 方块 效应 、 振 铃 效 应 、 模 糊 等 ) 
又 存在 时 域 失 真 (如 抖动 效应 、 鬼 影 效 应 等 ) ， 这 些 失真 之 间 还 存在 相互 影响 ; 3) 人 眼 对 视 
频 信 和 号 的 感知 机 理 相 比 对 静态 图 像 信 号 的 感知 机 理 复 杂 得 多 ， 人 眼 如 何 理解 视频 尤其 是 其 中 的 
运动 信息 目前 还 没有 足够 精确 的 结论 。 因 此 ， 目 前 VQA 方法 的 研究 还 处 于 初级 阶段 ， 其 质量 评 
价 的 准确 性 远 不 及 IQA 的 准确 性 高 。 

由 于 视频 可 看 作 是 由 多 帧 连续 图 像 组 成 的 ， 因 此 任何 针对 图 像 的 质量 评价 方法 (IQA) 都 可 
以 应 用 于 VQA， 最 简单 的 做 法 是 首先 评价 失真 视频 中 每 一 帧 图 像 的 质量 ， 之 后 对 所 有 帧 的 质量 
指标 进行 平均 得 到 视频 的 质量 评分 。 这 类 方法 思想 简单 ， 在 VQA 的 初期 经 常 使 用 ，9. 3 节 介 绍 
过 的 MSE、PSNR、SSIM 等 经 典 的 IQA 方法 都 可 以 使 用 ,但 经 过 平均 后 得 到 视频 质量 评价 常 不 太 
准确 ， 主 要 是 因为 对 视频 中 的 运动 信息 考虑 的 过 于 简单 ， 没 有 充分 利用 HVS 对 时 域 运动 信息 的 
感知 规律 。 目 前 VQA 方法 的 研究 重点 就 是 在 经 典 的 IQA 算法 的 基础 上 ， 考 虑 如 何 有 效 地 加 入 人 
眼 视觉 对 运动 信息 〈 即 时 域 失 真 ) 的 感知 ， 以 及 空域 失真 与 时 域 失 真 的 有 机 融合 上 。 

本 节 将 在 9.3 节 所 介绍 的 典型 IQA 方法 的 基础 上 ， 介 绍 自然 视频 场景 的 统计 特性 ， 尤 其 是 视 
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像 己 视频 处 理 
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频 中 时 域 信息 的 有 效 表达 与 建 模 方法 ， 以 及 结合 空域 信息 与 时 域 信息 的 视频 质量 评价 方法 。 需 
要 注意 的 是 ， 本 节 所 介绍 的 VQA 方法 与 上 一 方 介绍 的 IQA 方法 紧密 相关 ， 可 以 看 作 是 IQA 方法 
加 入 时 域 运 动 信息 后 的 视频 扩展 版 本 。 


9.4.1 全 参考 视频 质量 评价 


在 VQA 中 ， 最 重要 的 就 是 要 对 视频 中 的 时 域 运动 信息 进行 有 效 的 提取 和 利用 。 时 域 运 动 信 
息 的 提取 可 分 为 显 式 的 与 隐 式 的 两 类 。 显 式 的 是 指 直 接 计算 相 邻 帧 之 间 像 素 级 或 块 级 的 运动 矢 
量 场 (Motion Vector Field，MVF) ， 比 如 通过 光 流 法 来 计算 相 邻 帧 之 间 的 光 流 场 ， 可 以 得 到 像素 
级 精确 的 运动 信息 ， 但 问题 是 虽然 光 流 计算 有 快速 算法 ， 其 计算 复杂 度 仍然 较 高 ;还 可 通过 类 似 
视频 编码 中 的 块 级 运动 估计 方法 来 得 到 相 邻 帧 之 间 块 层 的 运动 矢量 (Motion Vector，MV) ， 在 运 
动 信息 的 表达 上 ， 以 块 为 单位 的 MV 比 光 流 要 粗糙 些 ， 但 优点 是 有 快速 运动 估计 方法 ， 计 算 量 比 
光 流 要 小 ， 且 MV 的 精度 也 可 以 接受 。 隐 式 的 是 将 视频 看 作 二 维 图 像 加 上 一 维 时 间 组 成 的 三 维 信 
号 ， 对 视频 数据 进行 空 时 三 维 滤波 来 提取 运动 信息 ， 并 分 析 其 统计 特性 。 在 VQA 中 ， 显 式 与 隐 
式 利 用 运动 信息 的 应 用 都 很 多 ， 也 有 各 自 优 缺点 ， 在 VQA 时 可 根据 需要 进行 选择 。 本 小 节 首 先 
介绍 一 种 简单 的 运动 信息 加 权 的 全 参考 VQA 方法 ， 之 后 介绍 一 种 有 代表 性 的 结合 空 时 域 信息 的 
全 参考 VQA 框架 ， 这 两 个 方法 都 是 用 显 式 的 方法 提取 和 利用 运动 信息 。 

1. 基于 运动 信息 加 权 的 VQA 

视频 可 看 作 由 一 帧 帧 的 图 像 及 其 之 间 的 运动 信息 所 构成 ， 因 此 ，VQA 可 利用 IQA 的 方法 先 
对 每 一 帧 局 部 空域 的 质量 进行 测量 ， 之 后 使 用 时 域 运 动 信息 作为 权重 因子 来 调节 块 层 与 帧 层 的 
空域 质量 分 ， 最 后 进行 融合 得 到 序列 的 评价 质量 。 基 于 运动 信息 加 权 的 VQA 框架 如 图 9-15 所 
示 ， 其 操作 流程 如 下 。 




































































































































































参考 视频 X 运动 估计 


由 IQA 计 算 局 





得 到 MV 











图 9-15 基于 运动 信息 加 权 的 VQA 框架 


























1) 对 参考 视频 X 与 失真 视频 Y 用 针对 图 像 的 质量 评价 方法 计算 失真 视频 各 帧 的 空域 质量 ， 
常见 的 IQA 方法 都 可 使 用 ， 比 如 基于 信号 保 真 度 的 MSE 与 PSNR、 基 于 结构 相似 性 的 SSIM 等 。 
下 面 以 块 层 的 MSE 为 例 进行 说 明 ， 设 MSE, ,表示 第 i 帧 第 j 块 的 均 方 误差 。 

2) 基于 参考 视频 使 用 运动 估计 或 光 流 法 来 计算 相 邻 帧 之 间 的 运动 信息 ， 以 运动 估计 得 到 
的 块 层 运动 矢量 (MV) 为 例 , 设 MV,,= (MYV,,,, MV,,,) 表示 第 i 帧 第 j 块 的 MV，MYV 中 同时 
包含 运动 的 强度 信息 和 方向 信息 。 考 虑 到 失真 会 使 MV 的 强度 和 方向 信息 均 发 生变 化 ， 因 此 也 可 
计算 出 失真 视频 了 中 的 运动 矢量 场 (MVF) ， 并 根据 参考 视频 与 失真 视频 的 MVF 的 差异 进行 质 
量 评价 。 本 节 介 绍 的 方法 暂 不 用 失真 视频 的 MVF， 仅 使 用 参考 视频 的 MVF 来 计算 权重 以 调节 空 
域 的 质量 分 。 

3) 根据 HVS 对 运动 感知 的 特性 ， 由 块 层 的 运动 信息 来 计算 块 层 视觉 权重 。 如 认为 人 眼 对 视 
频 中 运动 物体 的 失真 更 加 敏感 ， 可 使 用 MV 的 强度 作为 权重 来 突出 运动 物体 的 空域 失真 ， 权 重 计 
算 公 式 为 
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W,,= VCOMV +(MV (9-26 ) 


式 中 ，W, ,表示 第 i 帧 第 j 块 基于 运动 强度 的 权重 。 
4) 根据 块 层 质 量 的 加 权 和 来 计算 帧 层 的 质量 评分 ， 计 算 公式 为 





























VF, = 一 局 - (9-27) 
> 
式 中 ，VF, 表 示 第 i 帧 的 质量 评分 ; M 表示 一 帧 中 块 的 数目 。 
5) 用 类 似 的 方法 可 以 根据 运动 信息 计算 帧 层 的 权重 WW,， 失 真 视频 的 质量 评分 可 对 所 有 帧 的 
质量 分 加 权 后 得 到 ， 计 算 公式 为 


i 

















SW.VE, 

VQ = 一 和 一 
> Ww. 

式 中 ，VQ 表示 失真 视频 的 最 终 评价 分 ; N 为 视频 中 的 总 帧 数 。 

基于 运动 信息 加 权 的 VQA 方法 的 流程 比较 简单 ， 重 点 在 于 基于 运动 信息 的 权重 设计 方法 ， 
需要 考虑 HVS 对 运动 信息 的 感知 特性 。 另 外 ， 运 动 信 息 与 空域 信息 之 间 的 相互 掩盖 效应 如 何 建 
模 ， 空 域 与 时 域 失 真 的 有 机 融合 等 都 是 需要 考虑 的 问题 。 下 面 介绍 一 种 比较 复杂 的 有 代表 性 的 
VQA 方法 框架 ， 其 对 运动 信息 的 利用 更 加 有 效 。 

2. 基于 运动 的 视频 空 时 质量 评价 

基于 运动 的 视频 空 时 质量 评价 框架 在 VQA 过 程 中 综合 利用 了 空域 和 时 域 的 信息 ， 并 根据 从 
参考 视频 计算 出 的 运动 轨迹 来 评估 运动 造成 的 视觉 失真 及 其 对 空域 与 时 域 失 真 的 影响 ， 得 到 了 
很 好 的 VQA 效果 。 这 类 方法 的 基本 框架 如 图 9-16 所 示 。 


这 类 方法 更 有 效 地 
1 
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(9-28) 












































利用 了 运动 信息 对 空域 
质量 和 时 域 质 量 进行 调 
节 ， 并 在 空域 质量 与 时 
域 质 量 融合 时 再 次 参与 ， 
调节 ， 主 要 步骤 如 下 。 I 

1) 对 参考 视频 与 
失真 视频 了 使 用 空 时 滤 
波 器 分 解 为 不 同 的 空 时 图 9-16 ”基于 运动 的 视频 空 时 VQA 框架 
通道 ， 比 如 小 波 分 解 、 

Gabor 分 解 等 ， 以 模拟 HVS 对 视频 的 分 析 过 程 。 

2) 使 用 光 流 法 或 运动 估计 得 到 参考 视频 式 与 失真 视频 了 上 各自 的 运动 信息 ， 根 据 时 域 运 动 信 
息 计 算 运 动 失 真 ， 以 反映 失真 对 运动 信息 的 破坏 情况 。 

3) 根据 参考 视频 和 与 失真 视频 了 经 空 时 分 解 后 的 系数 ， 同 时 考虑 运动 对 空域 失真 的 调节 作 
用 ， 在 各 个 通道 内 分 块 计 算 空域 质量 指标 ， 以 反映 帧 内 空间 失真 情况 。 空 域 分 块 质量 的 计算 可 考 
虑 HVS 对 空域 信息 处 理 的 各 种 特性 ， 比 如 考虑 对 比 度 掩 盖 效 应 、 亮 度 撼 盖 效 应 等 。 

4) 联合 参考 视频 车 与 失真 视频 了 经 空 时 分 解 后 的 系数 以 及 运动 信息 计算 时 域 失 真 ， 需 要 考 
虑 运动 掩盖 效应 、 人 有 眼 运 动感 知 模型 等 。 

5) 最 后 ， 结 合 视频 空域 失真 、 时 域 失 真 以 及 运动 失真 得 到 最 后 的 视频 质量 评价 指标 。 

上 述 基于 运动 的 视频 空 时 质量 评价 框架 是 一 个 粗略 的 方法 流程 ， 在 具体 实现 时 可 根据 系统 
设计 的 需要 加 入 HVS 对 视频 的 不 同感 知 特性 ， 得 到 适合 具体 应 用 的 视频 质量 评价 方法 。 
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9. 4.2 半 参 考 视 频 质 量 评价 


半 参 考 VQA 是 指 利用 参考 视频 的 部 分 信息 或 特征 来 辅助 完成 失真 视频 的 质量 评价 。 半 参考 
VQA 设计 的 方法 学 类 似 于 半 参 考 IQA， 但 除了 提取 空域 特征 ， 还 必须 提取 时 域 特征 以 反映 帧 间 
失真 的 情况 。 如 前 所 述 ， 视 频 中 运动 信息 的 提取 和 利用 可 分 为 显 式 与 隐 式 的 两 种 ， 本 小 节 介 绍 一 
种 隐 式 利用 运动 信息 的 方法 ， 此 方法 是 在 上 一 小 节 基 于 炉 差 分 的 半 参 考 IQA 方法 (RRED) 基础 
上 加 上 时 域 特征 的 扩展 。 
针对 IQA 的 基于 炉 差 分 的 评价 方法 是 从 信息 论 的 角度 出 发 ， 对 图 像 小 波 分 解 后 的 子 带 系数 
用 高 斯 尺度 混合 (GSM) 模型 进行 建 模 ， 进 而 根据 失真 图 像 与 参考 图 像 相应 子 带 之 间 的 炉 差 分 
作为 评价 标准 。 从 类 似 的 思路 出 发 ， 本 小 节 介 绍 的 半 参 考 VQA 方法 同时 考虑 了 空域 的 炉 差 分 和 
时 域 的 炉 差分 ， 最 后 融合 得 到 视频 的 质量 评价 。 其 中 时 域 信息 的 建 模 是 通过 对 视频 中 相 邻 帧 之 
间 的 差分 做 小 波 变 换 来 得 到 不 同 尺度 不 同方 向 的 小 波 子 带 系数 ， 之 后 对 小 波 子 带 系数 使 用 高 斯 
尺度 混合 (GSM) 模型 进行 建 模 。 

基于 炉 差 分 的 半 参 考 VQA 方法 主要 包括 以 下 步 又。 

(1) 计算 空域 炉 差分 质量 指标 (SRRED ) 

对 参考 视频 和 失真 视频 了 的 各 帧 分 别 做 多 尺度 多 方向 的 小 波 分 解 ， 并 在 各 子 带 内 分 块 计 
算 空 域 的 基于 炉 差 分 的 质量 指标 (SRRED) ， 具 体 的 小 波 系数 建 模 和 质量 评价 方法 与 之 前 介绍 的 
半 参 考 IQA 方法 (RRED) 相同 。 设 Ci, 和 Ci 分别 表示 参考 视频 与 失真 视频 第 / 帧 第 子 带 甸 
m 块 的 小 波 系数 向 量 ，C' 与 Cw 分 别 表 示 相 应 系数 向 量 加 入 视觉 噪声 之 后 的 系数 向 量 ， 则 给 
GSM 模型 中 的 调节 乘 子 后 ， 参 考 视频 与 失真 视频 第 f 帧 第 k 子 带 第 m 块 的 条 件 炉 的 计算 公式 为 


h(Crisls) = log,[ (2ne) "Iss Ko, + o%l] (9-29) 
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/ 1 NI 2 2 
WC [ivan) = 7 Top Cama) ltl, +o! ] (9-30) 


式 中 ，K, 与 K, 为 相应 的 协 方差 矩阵 。 则 失真 视频 第 子 带 的 空域 质量 指标 (SRRED) 的 计算 
公式 为 








F M, 


mM, 1 , , 
SRRED, 四 FM, 2 2 [yh Co | Sn ) Yuyah Co | Sd ) | (9-31) 


式 中 ,ys =log(1+s5%) 与 yw =log(1+sw) 为 两 个 缩放 因子 ， 其 作用 是 引入 局 部 块 空域 特 
性 对 炳 的 影响 ，MM 为 子 带 厂 中 分 块 的 数目 。 

(2) 计算 时 域 恼 差分 质量 指标 (TRRED) 

对 参考 视频 X 和 失真 视频 了 先 计算 相 邻 帧 之 间 的 差分 ， 用 帧 差分 来 表达 时 域 运动 情况 。 对 
帧 差分 做 多 尺度 多 方向 的 小 波 分 解 ， 认 为 帧 差分 的 小 波 子 带 系数 也 服从 高 斯 尺度 混合 ( CSM) 
模型 。 使 用 类 似 于 空域 SRRED 的 方法 ， 在 各 子 带 内 分 抉 计算 时 域 的 基于 炳 差分 的 质量 指标 
(TRRED) ， 具 体 方法 如 下 : 设 D,, 和 D,ii 分 别 表示 参考 视频 与 失真 视频 第 / 帧 与 第 /+1 帧 的 差 
分 做 小 波 分 解 后 第 太子 带 第 m 块 的 小 波 系数 向 量 ，D' 与 Di 分 别 表 示 加 入 视觉 噪声 之 后 的 系 
数 向 量 ， 同 样 在 给 定 GSM 中 的 调节 冬 子 后 ， 参 考 视频 与 失真 视频 第 / 帧 差分 第 子 带 第 mn 块 的 
条 件 箭 的 计算 公式 为 
































h(D's | tin ) = log, [ (2ne) | 如 有， 十 ozl, 图 (9-32) 
, 1 2 
h( Di | ti) 时 18 (2xe) a ltaKy, + ozl,| ] (9-33) 
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像 与 视频 的 厄 人 价 [四 j 


Es K, 与 K, 为 相应 的 协 方差 矩阵 。 则 失真 视频 第 k 子 带 的 时 域 质 量 指 标 (TRRED) 的 计算 
公式 为 


























| 1 FP M, ， 
TRRED, 一 FM > 之 [Oh( D's | bn ) — ah Dn | tana) | (9-34) 
kf=1l m= 


式 中 , 6 i =log,(1+ Spa )log,(1 + to) 与 2 mA 二 =log, (1 + sm ) log, (1 + tom) 为 两 个 缩放 因子 ， 其 
作用 是 引入 局 部 块 空 域 和 时 域 特性 对 箭 的 影响 ;1 为 子 带 丰 中 分 块 的 数目 。 
(3) 计算 STRRED 
联合 空域 与 时 域 的 基于 彤 差分 的 质量 指标 ， 求 得 最 终 的 质量 评价 指标 STRRED ， 计 算 公式 为 
STRRED， = SRRED” . TRRED， (9-35) 
可 以 通过 选择 参考 视频 中 的 某 些 帧 (或 者 帧 中 的 某 些 子 带 以 及 子 带 块 ) 作 为 辅助 信息 ， 实 现 半 参 
考 的 VQA。 由 此 可 见 ， 半 参考 VQA 的 准确 性 还 是 依赖 于 所 提取 的 空域 与 时 域 特征 的 质量 和 数量 。 


9.4.3 无 参考 视频 质量 评价 


无 参考 VQA 是 指 仅 依 据 失 真 视频 本 身 进行 质量 的 预测 ， 没 有 参考 视频 的 任何 信息 可 供 利 用 。 
无 参考 VQA 方法 的 设计 原理 与 无 参考 的 IQA 方法 类 似 ， 重点 在 于 从 失真 视频 中 提取 哪些 特征 来 有 
效 地 描述 空域 与 时 域 信息 ， 以 及 如 何 将 这 些 空 时 域 特征 与 主观 质量 分 联系 起 来 。 在 9.3.4 节 主 要 介 
绍 了 一 种 基于 DCT 特征 的 图 像 质量 评价 方法 ， 本 小 节 以 此 为 基础 ， 介绍 一 种 基于 DCT 的 时 域 特征 
提取 方法 和 视频 质量 预测 方法 。 这 种 方法 同时 利用 显 式 和 隐 式 的 方式 提取 了 运动 信息 ， 通 过 对 视频 
相 邻 帧 差分 做 DCT 来 隐 式 分 析 运 动 特性 ， 用 运动 估计 的 方法 得 到 MV 来 显 式 描 述 运 动 的 连贯 性 。 

基于 DCT 特征 的 无 参考 VQA 方法 的 基本 框架 如 图 9-17 所 示 。 

如 图 9-17 所 示 ， 基 于 DCT 特征 的 无 参考 VQA 的 大 体 步 又 如 下 。 


































































































基于 GGD 的 
DCT 系 数 建 模 


基于 DCT 参 数 
的 特征 提取 


























测试 视频 特征 提取 质量 评价 分 








图 9-17 无 参考 视频 质量 评价 方法 框架 


1) 在 训练 阶段 ， 由 一 些 失真 视频 及 其 主观 评价 分 组 成 训练 集 。 对 视频 相 邻 两 帧 计算 差分 ， 
对 帧 差分 进行 ps (如 5 x5 块 ) 并 进行 局 部 块 层 的 二 维 DCT， 得 到 帧 差分 的 DCT 系数 ， 这 样 同 
时 对 空域 和 时 域 信息 进行 了 局 部 化 处 理 。 与 图 像 DCT 变换 后 的 统计 特性 类 似 ， 认 为 帧 差分 的 
DCT 系数 也 服从 广义 高 斯 分 布 (GGD) 模型 ， 对 帧 差分 所 有 分 块 相同 DCT 频率 位 置 上 的 系数 进 
行 GGD 拟 合 ， 得 到 GGD 形状 参数 矩阵 ， 这 个 矩阵 与 分 块 的 大 小 相同 ， 很 好 地 描述 了 局 部 DCT 块 
内 不 同 频率 的 统计 特性 。 与 基于 DCT 的 无 参考 IQA 方法 类 似 ， 可 以 对 形状 参数 矩阵 按 频率 大 小 
分 为 低频 、 中 频 与 高 频 子 区 域 ， 使 用 子 区 域 之 间 的 形状 参数 平均 值 的 比值 作为 特征 。 其 他 可 利用 
的 特征 比如 平均 亮度 特征 以 及 其 他 空域 的 特征 。 

2) 运动 连贯 性 特征 提取 。 用 运动 估计 的 方法 计算 块 层 的 MV， 之 后 构造 二 维 运动 连贯 性 张 
量 (MCT) ， 定 义 为 
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MV. 有 六 MV 
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(MV,- MV,) fCMYV,) 
式 中 ， 函 数 f. ) 表示 在 局 部 窗 内 的 加 权 求 和 ， 设 二 维 运动 连 贯 性 张 量 的 两 个 特征 值 为 1 和 1 ， 
则 局 部 运动 连贯 性 特征 定义 为 如 下 形式 : 

(a | (9-37) 


A + 儿 
3) 当 失 真 视频 的 空域 特征 与 时 域 特征 提取 后 ， 与 相应 的 主观 质量 分 形成 训练 特征 集 。 用 机 
器 学 习 (ML) 的 方法 训练 空 时 域 特征 与 主观 质量 分 的 函数 关系 。 
4) 在 测试 阶段 ， 对 要 测试 的 失真 视频 先 提取 相应 的 特征 ， 之 后 使 用 训练 好 的 函数 关系 来 得 
到 失真 视频 的 质量 评价 分 。 
与 无 参考 IQA 一 样 ， 无 参考 VQA 的 准确 性 也 依赖 于 所 采用 的 统计 模型 和 提取 的 空 时 域 特征 
的 质量 。 当 然 不 同 的 机 玫 学 习 方 法 得 到 的 结果 会 不 太一 样 ， 但 一 般 相 差 不 大 。 












































9.5 MATLAB 编程 实例 





基于 结构 相似 性 (SSIM) 的 全 参考 IQA 的 可 执行 MATLAB 代码 如 下 ， 请 在 MATLAB 编程 环 
境 中 调试 执行 ， 并 测试 质量 预测 的 准确 性 和 计算 复杂 度 
1. SSIM 的 函数 实现 代码 (ssim. my) 
function [ mssim，ssim_map] = ssim(refimg, testimg) 
[MN] = size(refimg) ; 
refimg = double(refimg ) ; 
testimg = double(testimg ) ; 


K1 = 0.01; 
K2 = 0.03; 
L = 255; 


Cl = (Kl *L)’2; 
C2 = (K2*L)’2; 
window = fspecial( 'gaussian', 11, 1.5); 
factor = max(1,round(min( M,N)/256)); 
if(factor >1) 
lpf = ones(factor,factor); 
lpf = lpf/sum( lpf( :)); 
refimg = imfilter( refimg ,lpf, 'symmetric','same' ) ; 
testimg = imfilter( testimg ,lpf,'symmetric','same'); 


refimg = refimg(1 :factor:end,1 :factor:end); 
testimg = testimg(1 :factor:end,1 :factor:end); 
end 


window = window/sum( sum( window) ) ; 





mu_ref = filter2(window, refimg, 'valid'); 

mu test = filter2(window, testimg, 'valid'); 

mu_ref sq = mu ref. * mu_ref; 

mu,_test_sq = mu_test. * mu_test; 

mu_ref test = mu _ref. * mu_test; 

sigma_ref sq = filter2(window, refimg. * refimg, 'valid') — mu_ref_sq; 
sigma,_ test_sq = filter2(window, testimg. * testimg, 'valid') — mu_test_sq; 
sigma_ref test = filter2(window, refimg. * testimg, 'valid') — mu_ref _test; 
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ssim map = ((2* mu ref test + C1). * (2* sigma ref test + C2))./((mu_ref_ sq + mu_test_sq 




















+ C1). * (sigma ref sq + sigma test_sq + C2)); 


mssim = mean2( ssim_map); 
return 
2. SSIM 函数 测试 与 结果 可 视 化 代码 (ssim_ test. m) 
clc ; 
clear all; 
close all; 


ref = imread( ' buildings. bmp' ) ; 

test = imread( 'img68_ 任 bmp' ) ; 

ref = rgb2gray(ref) ; 

test = rgb2gray( test); 

[mssim ，ssim_map] = ssim(ref, test); 

figure(1) ; 

subplot(221 ) ,imshow(ref) ,title( "原始 图 像 ' ) ; 

subplot(222 ) ,imshow( test) ,title( "失真 图 像 ' ) ; 

subplot(223 ) ,imshow( ssim_map) ,title([ 'SSIM 相似 性 图 ,SSIM = ' num2str( mssim) ] ) ; 





9.6 小 结 





图 像 与 视频 信号 在 处 理 的 各 个 阶段 〈 如 获取 、 压 缩 、 存 储 、 传 输 与 显示 等 ) 由 于 受到 各 种 
因素 的 影响 ,会 引入 不 同 程度 的 失真 或 降 质 ， 从 而 影响 视觉 质量 。 准 确 地 测量 一 幅 图 像 或 一 段 视 
频 的 质量 或 失真 不 仅 可 以 评价 图 像 处 理 系 统 的 性 能 ， 还 可 以 作为 优化 目标 来 指导 图 像 处 理 系统 
的 设计 。 因 此 图 像 与 视频 的 质量 评价 在 现代 图 像 处 理 系 统 中 有 着 举足轻重 的 作用 ， 是 近年 来 图 
像 处 理 领 域 的 一 个 研究 热点 。 

本 童 首先 介绍 了 人 了 眼 视 觉 特性 中 的 对 比 敏感 度 和 视觉 掩盖 效应 的 概念 ， 以 及 常见 的 图 像 与 
视频 失真 类 型 。 然 后 ， 重 点 介绍 了 全 参考 图 像 质量 评价 方法 ,包括 基 于 信号 保 真 度 的 均 方 误差 和 
峰值 信 品 比 ， 基 于 结构 相似 性 的 质量 评价 ， 以 及 基于 信息 保 真 度 准 则 的 评价 方法 。 同 时 也 介绍 了 
半 参 考 、 无 参考 图 像 质量 评价 方法 ， 包 括 自然 场景 统计 特性 的 原理 和 建 模 方法 ， 以 及 常见 的 空域 
与 频 域 特征 提取 方法 。 最 后 ， 介 绍 了 全 参考 、 半 参考 以 及 无 参考 视频 质量 评价 方法 ， 包 括 常见 的 
时 域 特征 提取 方法 。 

































































9.7 “习题 


1. 请 解释 对 比 敏 感度 函数 和 视觉 掩盖 效应 在 图 像 与 视频 质量 评价 中 的 作用 。 

2. 请 给 出 图 像 与 视频 质量 主观 评价 方法 的 原理 和 步 又， 并 说 明 主 观 评价 方法 的 优 缺点 。 
3. 请 给 出 均 方 误差 和 峰值 信 噪 比 的 原理 和 计算 公式 ， 并 说 明 其 优 缺点 。 
4 
和 














请 给 出 结构 相似 性 测量 的 原理 和 计算 公式 ， 并 说 明 其 优 缺 点 。 多 斥 度 结构 相似 性 相 比 单 
尺度 结构 相似 性 有 哪些 好 处 ? 
5. 信号 保 真 度 与 信息 保 真 度 如 何 区 分 ? 
6. 什么 是 自然 场景 的 统计 特性 ?可 以 从 哪些 域 进 行 建 模 ? 
7. 视频 质量 评价 比 图 像 质量 评价 难 在 哪里 ? 
8 
9 
































. 运动 信息 加 权 的 视频 质量 评价 方法 的 流程 和 大 概 步骤 有 哪些 ? 
. 请 在 MATLAB 中 编程 实现 MSE 与 PSNR 的 计算 。 
10. 请 在 MATLAB 中 调试 SSIM 的 程序 ， 并 使 用 测试 图 像 测量 其 准确 性 与 计算 复杂 度 。 
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第 10 音 基于 内 容 的 图 像 和 视频 检索 


本 章 学 习 目标 : 

。 元 悉 基 于 内 容 检 索 系 统 的 一 般 结 构 、 检 索 过 程 及 特点 。 

。 了 解 基于 内 容 检索 的 研究 方向 。 

。 掌握 基于 颜色 、 纹 理 以 及 简单 的 形状 和 空间 关系 等 特征 的 图 像 检索 的 一 般 方法 。 
。 了 解 图 像 颜色 、 纹 理 、 形 状 、 空 间 关系 特征 的 提取 与 表示 方法 。 

。 掌握 基于 内 容 的 视频 检索 工作 流程 和 系统 结构 。 

ee 了解 镜头 切换 的 基本 概念 、 镜 头 边界 检测 的 一 般 方 法 。 


10.1 基于 内 容 检索 技术 概述 


基于 内 容 的 多 媒体 信息 检索 研究 伴随 着 信息 时 代 的 到 来 而 展开 。 现 在 ， 多 媒体 数据 已 经 广 
泛 用 于 Internet 和 企 事业 信息 系统 中 ， 用 户 不 仅 要 存 取 常 规 的 文本 数据 ， 而 且 越 来 越 多 的 商业 活 
动 、 事 务 交易 和 信息 表现 将 包含 多 媒体 数据 。 那 么 ， 如 何 有 效 地 按照 多 媒体 数据 的 特性 去 存 取 多 
媒体 数据 呢 ? 这 就 是 基于 内 容 的 多 媒体 信息 检索 技术 所 要 研究 的 内 容 。 
10.1.1 多 媒体 信息 的 内 容 

多 媒体 信息 的 “内 容 ” 表 示 含 义 、 要 骨 、 主 题 、 特 征 、 物 理 细节 等 ， 它 区 别 于 “形式 ”这 
个 词 。 对 于 多 媒体 数据 来 说 ， 其 内 容 概念 可 以 在 多 个 层次 上 说 明 : 

。 概 念 级 内 容 一 一 表达 对 象 的 语义 ， 一 般 用 文本 形式 来 描述 ， 通 过 分 类 和 目录 来 组 织 层次 浏 
览 ， 用 链 (Link) 来 组 织 上 下 文 关联 。 
。 感 知 特征 一 一 包括 视觉 特征 ， 如 颜色 、 纹 理 、 形 状 、 轮 廓 、 运 动 ; 听觉 特征 ， 如 音 高 、 音 
、 音 质 等 。 
。 逻 辑 关系 一 一 音 视 频 对 象 的 时 间 和 空间 关系 ,语义 和 上 下 文 关联 等 。 
。 信号 特征 一 一 通过 信号 处 理 方法 获得 的 明显 的 媒体 区 分 特征 ， 例 如 通过 小 波 分 析 得 出 的 媒 
体 特征 。 

。 特 定 领 域 的 特征 一 一 与 应 用 相关 的 媒体 特征 ， 例 如 人 的 面部 特征 、 指 纹 特征 。 

获取 媒体 内 容 的 方式 可 以 是 人 工 方式 和 自动 方式 。 有 些 内 容 可 以 自动 提取 , 但 有 些 内 容 则 
很 难 ， 即 使 能 够 提取 ， 准 确 度 也 不 高 ， 和 鲁 棱 性 不 好 。 因 此 ， 可 以 用 半自动 方式 , 使 人 和 计算 机 各 
自发 挥 特长 ， 通 过 交互 和 学 习 获 取 媒 体 的 内 容 。 


10.1.2 内 容 处 理 技术 


多 媒体 内 容 的 处 理 分 为 三 大 部 分 ， 内容 获 取 、 内 容 描 述 和 内 容 操 纵 。 也 可 将 其 看 成 是 内 容 处 
理 的 三 个 步骤 ， 即 先 对 原始 媒体 进行 处 理 ， 提 取 内 容 ， 然 后 用 标准 形式 对 它们 进行 描述 ， 以 支持 
用 户 对 内 容 的 操纵 。 内 容 处 理 流程 如 图 10-1 所 示 。 

1. 内 容 获 取 

内 容 获 取 就 是 通过 对 各 种 内 容 的 分 析 和 处 理 ， 从 而 获得 媒体 内 容 的 过 程 。 它 包括 内 容 分 割 、 
特征 提取 两 个 部 分 。 
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图 10-1 内 容 处 理 流程 











在 多 媒体 系统 中 ， 把 媒体 对 象 划 分 为 几 个 有 意义 的 子 对 象 的 过 程 称 为 分 割 。 对 于 图 像 ， 分 割 
意味 着 把 图 像 划 分 为 若干 个 有 意义 的 区 域 ， 例 如 对 图 像 中 的 头像 指明 眼睛 、 鼻 子 和 嘴 的 区 域 ;， 对 
于 声音 ， 分 割 意味 着 把 声音 分 段 ， 例 如 指明 某 一 个 声 道 的 某 一 段 时 间 ; 对 于 视频 或 动画 则 包括 划 
分 区 域 和 分 段 两 种 含义 。 

分 割 的 实现 有 自动 分 制 和 人 工分 割 两 种 方法 。 对 于 图 像 ， 可 以 采用 图 像 处 理 中 的 许多 现 有 
算法 实现 自动 分 割 。 对 于 声音 或 视频 ,虽然 已 有 一 些 研 究 人 员 提 出 了 一 些 自动 分 割 的 方法 ,但 还 
不 很 成 熟 ， 有 待 于 进一步 发 展 。 即 使 对 于 图 像 ， 完 全 自动 分 割 仍 是 相当 困难 的 ， 特 别 是 针对 通用 

领域 的 图 像 ， 而 且 往往 也 需要 人 工 修正 自动 分 割 的 结果 。 

内 容 获 取 的 核心 是 特征 提取 。 特 征 提取 有 自动 特征 提取 和 人 工交 互 或 提取 两 种 方式 。 

2. 内 容 描述 

内 容 描 述 就 是 描述 在 以 上 过 程 中 获取 的 内 容 。 在 多 媒体 内 容 描 述 接口 标准 MPEG-7 中 ， 主 要 
采用 描述 符 ( Descriptor) 和 描述 方案 (Scheme) 来 分 别 描 述 媒 体 的 特性 及 其 关系 。 

3. 内 容 操纵 

内 容 操纵 是 针对 内 容 的 操作 和 应 用 。 因 为 用 户 对 内 容 有 着 不 同 的 需求 ， 所 以 有 不 同 的 操纵 
方式 。 这 里 ， 我 们 对 一 些 容易 混淆 的 术语 进行 说 明 。 

。 查询 (Query ) 一 一 是 面向 用 户 的 术语 ， 多 用 于 数据 库 操作 。 

。 索引 (Index) 是 对 特征 库 的 快速 访问 。 对 于 数据 库 中 的 每 个 数据 项 ， 索 引 项 包含 关键 
属性 值 以 及 可 以 直接 访问 该 数据 项 的 指针 。 索 引 构成 树 结 构 ， 索 引 树 (Index tee) 中 的 中 间 结 
点 是 它们 子 结 点 的 抽象 。 一 个 索引 树 既 可 以 自 底 向 上 通过 抽象 来 构造 ， 也 可 以 自 顶 向 下 通过 分 
类 来 构造 。 对 于 多 媒体 数据 ， 不 仅仅 用 一 个 关键 字 属 性 来 产生 一 个 索引 树 ， 还 要 利用 一 种 抽象 数 
据 类 型 ， 它 可 以 是 特征 矢量 、 多 维 矩 阵 或 指向 数据 结构 的 指针 。 在 索引 树 的 不 同 级 别 上 ， 所 用 的 
关键 属性 可 以 不 同 。 从 宏观 上 看 ， 索 引 可 分 级 以 加 快 数据 访问 。 索 引 级 的 最 高 层 是 总 目 ， 下 级 是 
逐步 缩小 范围 的 具体 索引 项 。 从 应 用 的 不 同 要 求 上 考虑 ， 索 引 可 以 分 类 向 用 户 提 供 不 同 的 检索 
方法 。 如 在 一 个 视频 数据 库 中 ， 可 以 提供 3 种 类 型 的 索引 : 目录 索引 、 结 构 索 引 ( 镜头、 场景 
等 ) 和 内 容 索 引 (场景 中 的 角色 、 运 动 目标 等 ) 。 

。 检索 ( Retrieval) 是 在 索引 文 持 下 的 快速 信息 获取 方式 。 

。 过滤 (Filtering) 是 用 快速 计算 的 过 滤器 扫描 数据 库 中 的 所 有 特征 数据 ， 只 有 通过 了 过 
滤器 的 项 才能 计算 其 相似 度 以 加 快 检 索 过 程 。 

。 搜索 〈Search) 一 一 常用 于 Internet 的 搜索 引擎 ， 含 有 搜寻 的 意思 ， 又 有 在 大 规模 信息 库 中 
搜寻 自己 所 需 的 信息 的 含义 。 

。 摘要 (Summarization ，Excerpt ) 是 对 多 媒体 中 的 时 间 相 关 媒 体 (如 视频 和 音频 ) 的 一 
种 特殊 操作 ， 可 以 对 视频 和 音频 媒体 进行 摘要 ， 获 得 一 目 了 然 的 全 局 视图 和 概要 。 
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像 与 视频 处 理 











10.1.3 基于 内 容 检索 的 查询 方式 


在 许多 情况 下 ， 用 户 习 惯 于 通过 概念 来 提交 查询 。 概 念 查询 的 一 种 实现 是 基于 文本 式 的 描 
述 ， 用 关键 词 、 关 键 词 逻 辑 组 合 或 自然 语言 来 表达 查询 的 概念 。 

当 词 语 难 以 足够 形象 和 准确 地 描述 视觉 或 听觉 感知 时 ,例如 一 种 东西 的 式样 、 颜 色 或 纹理 ， 
用 户 就 需要 利用 媒体 呈现 的 视觉 和 听觉 特性 来 查询 ， 例 如 基于 颜色 、 纹 理 特征 进行 查询 。 




















下 面 来 看 一 个 例子 。 月 











基于 内 容 的 技术 把 感 兴趣 的 服 
































日 户 先 用 关键 词 访问 一 个 在 线 服装 商品 目录 ， 查 到 一 批 服 装 ， 然 后 利用 


装 范围 缩小 到 指定 的 颜色 或 图 案 。 











在 基于 内 容 的 音 / 视 频 检 索 方 面 ， 用 户 常 使 用 的 查询 方式 有 以 下 两 种 。 


1. 示例 查询 











通过 浏览 选择 示例 ， 或 通过 扫描 仪 、 摄 像 机 、 数 字 相 机 、 传 声 器 在 线 输入 图 像 或 音频 作为 查 


询 的 样 例 。 
2. 描绘 查询 








在 没有 现存 样 例 的 情况 下 ， 可 以 使 用 描绘 方式 。 在 现实 生活 中 ， 为 了 叙述 方便 和 明确 ， 人 们 
常常 用 笔 勾 勒 或 描绘 自己 的 意图 。 同 样 方式 也 可 以 用 于 提交 形象 直观 的 查询 。 在 基于 内 容 的 音 
频 检索 方面 ， 通 过 选择 一 些 听 觉 感知 特性 来 描述 查询 要 求 ， 例 如 音调 的 高 低 和 音量 的 大 小 等 。 


10.1.4 基于 内 容 检索 系统 的 一 般 结 构 


基于 内 容 检索 技术 一 般 用 于 多 媒体 数据 库 系统 之 中 ， 也 可 以 单独 建立 应 用 系统 ， 如 指纹 系统 、 
头像 系统 或 其 他 的 应 用 系统 。 从 基于 内 容 检 索 的 角度 出 发 ， 系 统 在 体系 结构 上 划分 为 两 个 子 系统 : 
特征 库 生成 子 系统 和 查询 子 系统 。 此 外 ， 在 提取 特征 时 ， 往 往 需 要 相应 的 知识 库 以 支持 特定 领域 的 
内 容 处 理 。 基 于 内 容 检 索 系 统 的 结构 示意 如 图 10-2 所 示 ， 各 个 模块 的 主要 功能 简 述 如 下 。 






































1. 目标 标识 

目标 标识 为 用 户 提供 
一 种 工具 ， 以 全 自动 或 半 
自动 ( 即 需 要 用 户 干 预 ) 
的 方式 对 媒体 进行 分 割 ， 
标识 出 静态 图 像 、 视 频 镜 
头 的 代表 帧 等 媒体 中 用 户 
感 兴 趣 的 区 域 ， 以 及 视频 
序列 中 的 动态 目标 ， 以 便 
针对 目标 进行 特征 提取 。 
当 进 行 整体 内 容 检索 时 ， 
利用 全 局 特征 ， 这 时 不 用 
目标 标识 功能 。 目 标 标识 
是 可 选 的 。 

2. 特征 提取 

该 模块 对 用 户 或 系统 
标识 的 媒体 对 象 进行 特征 
提取 处 理 ， 提 取 用 户 感 兴 
趣 的 、 适 合 检索 要 求 的 特 
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查询 子 系统 | 特征 库 生 成 子 系统 
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特征 索引 ee 
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图 10-2 基于 内 容 检 索 系 统 的 结构 示意 



































其 于 内 容 的 区 和 讽 员 反 记 [四 


征 。 提 取 的 特征 可 以 是 全 局 性 的 ， 如 整 幅 图 像 或 视频 镜头 的 颜色 分 布 ， 也 可 以 针对 某 个 目标 内 部 
的 对 象 ， 如 图 像 中 的 子 区域 、 视 频 中 的 运动 对 象 等 。 在 提取 特征 时 ， 往 往 需要 相应 的 知识 库 以 文 
持 特 定 领域 的 内 容 处 理 。 

3. 媒体 数据 库 和 特征 数据 库 

媒体 数据 和 插入 时 得 到 的 特征 数据 分 别 存 人 媒体 数据 库 和 特征 数据 库 。 媒 体 数据 库 包 含 各 
种 媒体 数据 ， 如 图 像 、 视 频 、 音 频 、 文 本 等 。 特 征 数据 库 包含 相应 媒体 的 特征 数据 。 

4. 查询 接口 

友好 的 人 机 交互 界面 是 一 个 成 功 检索 系统 不 可 缺少 的 条 件 ， 它 可 以 大 大 提高 检索 的 效率 。 
在 基于 内 容 的 检索 中 ， 由 于 特征 值 为 高 维 矢量 ， 不 具有 直观 性 ， 因 此 必须 为 其 提供 一 个 可 视 化 的 
输入 手段 。 可 采用 的 方式 有 三 种 : 操纵 交互 输入 方式 、 模 板 选 择 输 入 方式 和 用 户 提 交 特 征 样板 的 
输入 方式 。 同 时 应 支持 多 种 特征 的 组 合 。 另 外 ， 查 询 返 回 的 结果 需要 浏览 ， 应 在 用 户 界面 提供 浏 
览 功 能 ， 如 有 必要 可 以 通过 相关 反馈 机 制 进一步 进行 查询 。 

5. 检索 引擎 

检索 是 利用 特征 之 间 的 距离 函数 来 进行 相似 性 检索 。 模 仿 人 类 的 认 知 过 程 ， 近 似 得 到 数据 
库 的 认 知 排队 ， 对 于 不 同类 型 的 媒体 数据 有 各 自 不 同 的 相似 性 度量 算法 ， 检 索引 擎 中 包括 一 个 
较为 有 效 可 靠 的 相似 性 度量 函数 集 。 

6. 索引 /过 滤器 

检索 引擎 通过 索引 /过 滤 模 块 达到 快速 搜索 的 目的 ， 从 而 可 以 应 用 到 数据 库 中 的 大 型 多 媒体 
数据 集合 中 。 过 滤器 作用 于 全 部 数据 ， 过 滤 出 的 数据 集合 再 用 高 维特 征 匹 配 来 检索 。 对 于 低 维特 
征 ， 可 以 用 R- 树 索引 结构 来 加 快 检索 。 


10.1.5 基于 内 容 的 检索 过 程 


基于 内 容 的 检索 是 一 个 逐步 求 精 的 过 程 ， 存 在 着 一 
个 特征 调整 、 重 新 匹配 的 循环 过 程 ， 如 图 10-3 所 示 。 

基于 内 容 的 检索 过 程 一 般 包 括 以 下 几 个 步骤 。 

1) 提交 查询 。 用 户 开始 检索 时 ， 需 要 提交 查询 ， 以 
表达 检索 要 求 。 系 统 对 提交 的 示例 进行 特征 提取 ， 或 把 
查询 描述 映射 为 具体 的 特征 矢量 。 

2) 相似 性 匹配 。 将 查询 特征 与 特征 库 中 的 特征 按照 
一 定 的 匹配 算法 进行 相似 匹配 。 满 足 一 定 相 似 性 条 件 的 
一 组 候选 结果 按 相 似 度 大 小 排列 返回 给 用 户 。 

3) 调整 特征 。 用 户 对 系统 返回 的 候选 结果 进行 浏 
览 ， 挑 选 出 满意 的 结果 ， 检 索 过 程 完成 ; 或 者 从 候选 结 
果 中 选择 一 个 最 接近 的 示例 ， 经 过 特征 调整 后 ， 形 成 一 
个 新 的 查询 。 

4) 重新 检索 。 逐 步 缩 小 查询 范围 ， 重 新 开始 。 该 过 
程 直 到 用 户 放 弃 或 者 得 到 满意 的 检索 结果 为 止 。 


输出 检索 结果 
10. 1.6 基于 内 容 检索 的 特点 AAA 
基于 内 容 的 检索 突破 了 传统 的 基于 文本 检索 技术 的 


局 限 ， 直 接 对 图 像 、 视 频 、 音 频 内 容 进行 分 析 ， 抽 取 特 图 10.3 基于 内 容 的 检索 过 各 
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(©) 数字 图像 与 视频 处 理 


征 和 语义 (如 图 像 中 的 颜色 、 纹 理 、 形 状 ， 视频 中 的 镜头 、 场 景 、 镜 头 的 运动 ， 声 音 中 的 音调 、 
响 度 、 音 色 等 )， 利 用 这 些 内 容 特 征 建 立 索 引 并 进行 检索 。 

与 传统 的 基于 文本 的 信息 检索 相 比 ， 基 于 内 容 的 检索 (Content- based Retrieval，CBR) 有 如 
下 特点 。 

(1) 直接 从 媒体 内 容 中 提取 特征 并 建立 索引 

CBR 直接 对 文本 、 图 像 、 视 频 、 音 频 进 行 分 析 ， 从 中 抽取 内 容 特征 ， 然 后 利用 这 些 描述 媒 
体内 容 的 特征 建立 索引 并 进行 检索 。 

(2) 相似 性 检索 

基于 内 容 的 检索 过 程 是 一 个 逐步 求 精 的 过 程 。 它 采用 相似 性 匹配 (或 局 部 匹配 ) 的 方法 和 
技术 逐步 求 精 地 获得 检索 结果 ， 握 弃 了 传统 的 精确 匹配 技术 ， 避 免 了 因 采 用 传统 检索 方法 所 带 
来 的 不 确定 性 。 

(3) 满足 用 户 多 层次 的 检索 要 求 

CBR 检索 系统 通常 由 媒体 库 、 特 征 库 和 知识 库 组 成 。 媒 体 库 包含 多 媒体 数据 ， 如 文本 、 
图 像 、 音 频 、 视 频 等 ， 特 征 库 包含 用 户 输入 的 特征 和 预 处 理 自动 提取 的 内 容 特征 ;知识 库 包 
含 领域 知识 和 通用 知识 ， 其 中 的 知识 表达 可 以 更 换 ， 以 适应 各 种 不 同 领域 的 应 用 要 求 。 

(4) 大 型 数据 库 〈 集 ) 的 快速 检索 

CBR 往往 拥有 数量 巨大 、 种 类 繁多 的 多 媒体 数据 库 ， 能 够 实现 对 多 媒体 信息 的 快速 检索 。 


10.2 基于 内 容 的 图 像 检 索 























































































































10.2.1 基于 内 容 的 图 像 检索 概述 


近年 来 ， 随 着 多 媒体 技术 和 计算 机 网 络 的 飞速 发 展 ， 全 世界 的 数字 图 像 的 容量 正 以 惊人 的 速度 
增长 。 这 些 数 字 图 像 中 包含 了 大 量 有 用 的 信息 。 然 而 ， 由 于 这 些 图 像 是 无 序 地 分 布 在 世界 各 地 ， 图 
像 中 包含 的 信息 无 法 被 有 效 地 访问 和 利用 。 这 就 要 求 有 一 种 能 够 快速 而 且 准 确 地 查找 访问 图 像 的 技 
术 ， 也 就 是 所 谓 的 图 像 检索 技术 。 自 从 20 世纪 70 年 代 以 来 ， 在 数据 库 系 统 和 计算 机 视觉 两 大 研究 
领域 的 共同 推动 让， 图 像 检 索 技 术 已 逐渐 成 为 一 个 非常 活跃 的 研究 领域 。 数 据 库 和 计算 机 视觉 两 大 
领域 是 从 不 同 的 角度 来 研究 图 像 检 索 技 术 的 ， 前 者 基于 文本 的 ， 而 后 者 是 基于 视觉 的 。 

基于 文本 的 图 像 检 索 (Text-based Image Retrieval) 技术 的 历史 可 以 追溯 到 20 世纪 70 年 代 末 
期 。 当 时 流行 的 图 像 检 索 系 统 是 将 图 像 作为 数据 库 中 存储 的 一 个 对 象 ， 用 关键 字 或 自由 文本 对 
其 进行 描述 。 基 于 文本 的 图 像 检 索 沿用 了 传统 文本 检索 技术 ， 回 避 对 图 像 视觉 特征 的 分 析 ， 而 是 
从 图 像 名 称 、 图 像 尺 寸 、 压 缩 类 型 、 作 者 、 年 代 等 方面 索引 图 像 ， 一 般 以 关键 词 形 式 的 提问 查询 
图 像 ， 或 者 是 根据 分 类 目录 的 形式 浏览 查找 特定 类 目下 的 图 像 。 

由 于 这 种 搜索 引擎 可 以 利用 成 熟 的 关系 数据 库 技术 ， 所 以 检索 比较 准确 ， 而 且 速 度 很 快 。 这 
种 技术 可 以 用 来 管理 数量 不 多 , 但 比较 有 价值 的 图 片 库 ， 例 如， 博物 馆 收 集 的 图 片 。 然 而 ， 随 着 
图 像 数 据 库 规模 的 增 大 ， 基 于 关键 字 或 文本 标注 的 图 像 检 索 存 在 的 问题 就 突显 出 来 了 。 首 先 , 目 
前 的 计算 机 视觉 和 人 工 智能 技术 都 无 法 自动 对 图 像 进行 标注 ， 而 必须 依赖 于 人 工 对 图 像 做 出 标 
注 。 这 项 工作 不 但 费时 费力 ， 而 且 手 工 的 标注 往往 是 不 准确 或 不 完整 的 ， 还 不 可 避免 地 带 有 主观 
偶 差 。 也 就 是 说 ， 不 同 的 人 对 同一 幅 图 像 有 不 同 的 理解 方法 ， 这 种 主观 理解 的 差异 将 导致 图 像 检 
索 中 的 失 配 错 误 。 此 外 ， 图 像 中 所 包含 的 丰富 的 视觉 特征 〈 颜 色 或 纹理 等 ) 往往 无 法 用 文本 进 
行 客观 地 描述 的 。 
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1990 年 代 初 ， 大 规模 图 像 集 不 断 涌现 ， 基 于 文本 图 像 检索 的 局 限 性 与 图 像 检 索 需 求 之 间 的 
矛盾 进一步 突出 。 为 了 解决 这 一 问题 ， 人 们 提出 了 基于 内 容 的 图 像 检 索 (Content- based Image 
Retrieval ，CBIR ) 。 

图 像 内 容 按 抽象 层次 由 低 向 高 表现 为 : 数据 信息 、 特 征 信息 〈 例 如 ， 颜 色 、 纹 理 与 形状 等 ) 
与 语义 信息 。 数 据 层 次 的 计算 量 非 常 巨大 ， 直 接 对 原始 信号 数据 进行 匹配 与 检索 是 不 现实 的 。 人 
Rs 可 以 对 信息 内 容 做 出 语义 上 的 描述 ， 在 这 个 层次 上 的 检索 称 为 基于 语义 内 容 的 检索 。 基 

语义 内 容 的 检索 可 以 看 作 是 基于 对 象 的 检索 。 例 如 ， 查 找 图 像 中 包括 的 具体 物体 、 发 生 的 场 
， 以 及 图 像 所 描述 的 感情 色彩 等 都 属于 这 个 层次 的 查找 。 基 于 语义 内 容 的 检索 是 基于 内 容 的 
图 像 检 索 发 展 的 趋势 与 要 求 。 但 是 ， 由 于 目前 计算 机 视觉 和 图 像 理解 的 发 展 水 平 ， 基 于 语义 内 容 
的 检索 还 很 难 实现 。 

现实 可 行 的 智能 检索 方法 就 是 ， 提 取 能 表征 图 像 内 容 的 特征 参数 ， 利 用 这 些 特征 参数 进 
行 匹 配 、 检 索 ， 即 基于 特征 内 容 的 检索 。 目 前 ， 基 于 内 容 的 图 像 检 索 的 研究 主要 集中 在 特征 
层次 上 。 在 基于 内 容 的 图 像 检 索 中 ， 根 据 图 像 的 色彩 、 纹 理 、 形 状 以 及 空间 关系 等 内 容 特征 
作为 图 像 的 索引 ， 计 算 查 询 图 像 和 目标 图 像 的 相似 距离 ， 按 相似 度 匹 配 进 行 检 索 ， 从 图 像 数 
据 库 中 找 出 其 特征 矢量 与 查询 图 像 的 特征 矢量 最 匹配 的 图 像 。 它 涉及 以 下 3 个 方面 的 问题 。 

1) 选择 能 够 充分 表达 图 像 的 特征 。 

2) 采取 有 效 的 特征 提取 、 描 述 方法 。 

3) 要 有 合适 的 特征 匹配 算法 〈( 即 相似 度 的 计算 ) 。 

特征 提取 是 基于 内 容 的 图 像 检索 的 基础 。 目 前 常用 的 图 像 特征 是 颜色 、 纹 理 以 及 简单 的 形 
状 和 空间 关系 等 特征 。 

1. 基于 颜色 特征 的 图 像 检 索 

颜色 是 描述 图 像 内 容 的 最 直接 的 视觉 特征 ， 在 图 像 检 索 中 应 用 最 为 广泛 ， 主 要 原因 在 于 颜 
色 往 往 和 图 像 中 所 包含 的 物体 或 场景 十 分 相关 。 此 外 ， 与 其 他 的 视觉 特征 相 比 ， 颜 色 特 征 对 图 像 
的 缩放 、 旋 转 、 平 移 其 至 各 种 形变 都 不 敏感 ， 从 而 具有 较 高 的 鲁 棒 性 。 

2. 基于 纹理 特征 的 图 像 检索 

纹理 是 描述 图 像 内 容 的 一 个 重要 特征 。 纹 理 通 常 被 看 作 图 像 的 某 种 局 部 性 质 ， 或 是 对 局 部 
区 域 中 像素 之 间 关 系 的 一 种 度量 ， 可 认为 是 灰 度 (颜色 ) 在 空间 以 一 定 的 形式 变化 而 产生 的 图 
案 (模式 )， 可 用 来 对 图 像 中 的 空间 信息 进行 定量 描述 ， 是 真实 图 像 区 域 固有 的 特征 之 一 。 例 
如 ， 云彩、 树木 、 砖 和 织物 等 都 有 各 自 的 纹理 特征 。 正 是 由 于 纹理 特征 具有 这 个 特点 ， 所 以 它 也 
是 基于 内 容 检索 系统 中 的 一 条 重要 线索 。 由 于 纹理 描述 比较 困难 ， 基 于 纹理 特征 的 图 像 检 索 通 
常 适 用 于 对 有 规则 结构 纹理 的 图 像 检 索 ， 用 户 可 以 通过 示例 查询 方式 提交 包含 有 某 种 纹理 的 图 
像 来 查找 含有 相似 纹理 的 其 他 图 像 。 

3. 基于 形状 特征 的 图 像 检索 

图 像 中 的 物体 和 区 域 形 状 是 图 像 表 达 和 图 像 检 索 中 要 用 到 的 另 一 类 重要 特征 。 但 不 同 于 颜 
色 或 纹理 特征 ， 形 状 特征 的 表达 必须 以 图 像 中 的 物体 或 区 域 的 分 割 为 基础 。 由 于 当前 的 技术 无 
法 做 到 准确 而 稳健 的 自动 图 像 分 割 ， 图 像 检 索 中 的 形状 特征 只 能 在 某 些 特殊 应 用 场合 使 用 ， 在 
这 些 应 用 中 图 像 包 含 的 物体 或 区 域 可 以 直接 获得 。 男 一 方面 ， 由 于 人 们 对 物体 形状 的 变换 、 旋 转 
和 缩放 主观 上 不 太 敏 感 ， 合 适 的 形状 特征 必须 满足 对 变换 、 旋 转 和 缩放 无 关 ， 这 给 形状 相似 度 的 
计算 也 带 来 了 难度 。 

通常 来 说 ， 形 状 特征 有 两 种 表示 方法 ， 一 种 是 轮廓 特征 ， 另 一 种 是 区 域 特 征 。 图 像 轮 廓 特征 
用 到 物体 的 外 边界 ， 而 图 像 区 域 特征 则 关系 到 整个 形状 区 域 。 基 于 骨架 或 轮廓 的 检索 能 使 用 户 
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数字 图 像 与 视频 处 理 
































通过 勾勒 图 像 的 大 致 轮廓 ， 从 数据 库 中 检索 出 轮廓 相似 的 图 像 。 





提取 图 像 的 轮廓 是 一 个 困难 的 任务 ， 一 般 的 图 像 分 割 和 边缘 检测 提取 很 难得 到 理想 的 结果 。 




















目前 较 好 的 方法 是 采用 图 像 的 自动 分 割 方法 结合 识别 目标 的 前 景 
































和 背景 模型 来 得 到 比较 精确 的 

















轮廓 。 由 于 用 户 的 勾画 只 是 对 整个 图 像 目 标的 大 体 描述 ， 如 果 用 整个 轮廓 线 来 作为 匹配 特征 并 























不 合适 ， 必 须 用 一 些 轮廓 的 简化 特征 作为 检索 的 依据 。 一 般 以 轮廓 的 中 心 为 基准 ， 计 算 中 心 到 边 








界 点 的 最 长 轴 和 最 短 轴 、 长 轴 与 短 轴 之 比 、 周 长 与 面积 之 比 ， 以 及 拐点 等 作为 轮廓 检索 的 特征 。 











事实 上 ， 要 识别 目标 的 轮廓 是 很 困难 的 ， 在 有 些 情况 下 ， 也 直接 采用 轮廓 妃 踪 方法 进行 轮廓 


检索 。 





对 轮廓 进行 检索 的 过 程 是 交互 完成 的 。 首 先 对 图 像 进行 轮廓 提取 ， 并 计算 轮廓 特征 ， 存 于 特 





征 库 中 。 为 方便 用 户 描绘 轮廓 ， 一 般 检索 接口 应 给 出 基本 的 绘画 工具 ， 月 








询 的 要 求 。 检 索 时 ， 通 过 计算 手绘 轮廓 的 特征 与 特征 库 中 的 图 像 


























轮廓 特 生 














配 程度 。 轮 廓 特征 检索 也 可 以 结合 颜色 进行 描述 ， 例 如， 用 户 可 用 绘图 





日 户 可 以 用 工具 来 手绘 查 


E 的 相似 距离 来 决定 匹 





工具 在 一 个 绿色 的 背景 上 


画 一 个 红色 的 圆 ， 系 统 将 与 圆 形 轮廓 相似 的 目标 图 像 都 从 数据 库 中 找 出 来 ， 然 后 用 户 再 在 这 些 


图 像 中 选择 需要 的 内 容 。 
4. 基于 空间 关系 特征 的 图 像 检索 














上 述 的 颜色 、 纹 理 和 形状 等 特征 反映 的 都 是 图 像 的 整体 特征 ， 而 无 法 体现 图 像 中 所 包含 的 


对 象 或 物体 。 事 实 上 ， 对 于 包含 多 个 对 象 的 图 像 ， 对 象 所 在 的 位 置 和 对 象 之 间 的 空间 关系 同样 是 




















图 像 检索 中 非常 重要 的 特征 。 例 如 ， 蓝 色 的 天 空 和 瑚 蓝 的 海洋 在 颜色 直方 图 上 非常 接近 而 难以 
辨别 。 但 如 果 我 们 指明 是 “处 于 图 像 上 半 部 分 的 蓝 色 区 域 ”， 则 一 般 来 说 就 可 以 区 分 天 空 和 海 








洋 。 由 此 可 见 ， 包含 空 间 关 系 的 图 像 特征 对 检索 有 很 大 帮助 。 
提取 图 像 空间 关系 特征 通常 有 两 种 方法 : 一 种 方法 是 首先 对 























图 像 进行 自动 分 割 ， 划 分 出 图 


像 中 所 包含 的 对 象 或 颜色 区 域 , 然后 根据 这 些 区 域 对 象 索 引 ; 另 一 种 方法 则 是 简单 地 将 图 像 均 





匀 划 分 为 若干 个 规则 的 子 块 ， 然 后 针对 每 个 图 像 子 块 分 别提 取 特 生 


5. 基于 对 象 特征 的 图 像 检索 











F 并 建立 索引 。 


由 于 颜色 、 纹 理 的 检索 仅 适 合 部 分 图 像 检 索 的 情况 ， 且 检索 的 正确 率 不 高 ， 而 且 ， 在 很 多 情 
况 下 ， 人 们 感 兴趣 的 并 不 是 整 幅 图 像 ， 而 是 图 像 中 的 某 些 区 域 或 目标 ， 因 此 ， 近 几 年 来 ， 人 们 提 








出 了 基于 对 象 特征 的 图 像 检 索 方 法 。 











所 谓 基 于 对 和 象 特征 的 检索 ， 是 指 对 图 像 中 所 包含 的 静态 子 对 象 进行 查询 ， 检 索 条 件 可 以 利 
用 颜色 、 纹 理 、 形 状 和 空间 关系 等 特征 以 及 客观 属性 等 。 其 中 的 对 象 主要 有 两 种 类 型 : 一 种 是 以 
子 对 象 为 问题 的 出 发 点 ， 对 图 像 所 包含 的 子 对 象 特征 进行 描述 ; 男 一 种 是 以 区 域 为 问题 的 出 发 














点 ， 将 整个 图 像 作为 对 象 ， 对 它 的 内 容 特征 进行 描述 。 








基于 对 象 特 征 的 检索 首先 要 对 图 像 进行 预 处 理 ， 将 原始 像素 信息 分 割 成 一 些 颜色 和 纹理 在 
空间 上 连贯 分 布 的 区 域 ， 计 算出 每 个 区 域 的 颜色 、 纹 理 和 空间 关系 等 特征 。 这 与 基于 颜色 和 基于 
纹理 的 检索 方法 不 同 。 基 于 颜色 和 基于 纹理 的 方法 主要 用 于 检索 与 图 像 全 局 相似 的 图 像 ， 不 需 
要 对 图 像 进行 分 割 。 基 于 对 象 特征 的 检索 主要 用 于 检索 图 像 对 象 或 是 它 的 子 对 象 ， 针 对 的 是 局 
部 特征 ， 所 以 除了 要 对 图 像 进 行 预 处 理 以 外 ， 还 需要 进行 图 像 分 割 ， 在 难度 和 复杂 度 上 都 要 比 基 





























于 颜色 和 基于 纹理 的 检索 技术 更 进一步 。 





对 分 割 后 的 每 个 区 域 来 说 ， 可 以 用 一 个 多 维 向 量 来 表示 其 颜色 、 纹 型 
特征 。 这 样 ， 对 一 个 给 定 的 区 域 来 说 ， 所 获得 的 多 维 向 量 是 确定 的 。 检 索 时 ， 根 据 用 户 所 提供 




















E、 形 状 以 及 空间 关系 等 
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信息 或 者 草图 ， 利 用 高 效 的 检索 算法 进行 匹配 ， 再 根据 相似 测试 函数 进行 过 滤 ， 就 可 将 相似 度 较 





高 的 图 像 提供 给 用 户 使 用 。 
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10.2.2 图 像 颜 色 特征 的 提取 与 表示 


如 前 所 述 ， 彩 色 可 以 用 亮度 、 色 调 、 饱 和 度 来 描述 ， 人 眼看 到 任 一 彩色 光 都 是 这 3 个 特性 的 
综合 效果 。 彩 色 图 像 所 携带 的 信息 远 远 大 于 灰 度 图 像 。 颜 色 是 描述 图 像 内 容 的 最 直接 的 视觉 特 
征 ， 在 图 像 检索 中 应 用 最 为 广泛 。 

颜色 特征 反映 彩色 图 像 的 整体 特性 ， 一 幅 图 像 可 以 用 它 的 颜色 特征 描述 。 根 据 颜色 与 空间 















































属性 的 关系 ， 颜 色 特 征 的 表示 可 以 有 颜色 直方 图 、 颜 色 矩 、 颜 色 集 以 及 颜色 一 致 性 矢量 等 几 种 
方法 。 





图 像 颜色 特征 的 表示 涉及 多 个 问题 。 首 先 ， 由 于 存在 许多 不 同 的 颜色 空间 ， 对 不 同 的 具体 应 
用 ， 需 要 选择 合适 的 颜色 空 s 间 来 措 述 图 像 颜色 特征 。 其 次 ， 需 要 采用 定 的 量化 方法 来 将 颜色 特 
征 表示 成 矢量 形式 ， 只 有 将 图 像 颜色 特征 表示 成 矢量 形式 以 后 ， 才 能 进行 相似 度 比 较 。 最 后 需要 
说 明 的 是 ， 需 要 定义 一 种 相似 度 标准 来 衡量 不 同 图 像 之 间 的 颜色 相似 性 (如 以 红色 为 主 的 图 像 
与 以 黄色 为 主 的 图 像 是 不 相似 的 )。 

1. 颜色 直方 图 

颜色 直方 图 是 在 许多 图 像 检 索 系统 中 被 广泛 采用 的 颜色 特征 。 它 所 描述 的 是 不 同色 彩 在 整 幅 图 
像 中 所 占 的 比例 ， 即 图 像 颜 色 分 布 的 统计 特性 。 设 一 幅 图 像 包 含 W 个 像素 ， 图 像 的 颜色 空间 被 量化 
成 NN 种 不 同 颜色 ,第 i 种 颜色 值 用 p, 表示 。 在 整 幅 图 像 中 ， 具 有 p, 颜色 值 的 像素 数 为 h,， 则 这 一 组 
像素 统计 值 h ，h,，…，h,，…, hh 就 是 该 图 像 的 颜色 直方 图 ， 可 用 豆 (hh, hy …， hh …, hy,) 


表示 。 
h, h, h, h, 


与 大 度 直 方 图 类 似 ， 闫 色 直方 图 也 可 以 定义 为 归 一 化 直方 图 ， 即 用 有 各 ,各 ，… ,各 请 示 。 


当然 ， 颜色 直方 图 可 以 基于 不 同 的 颜色 空间 和 坐标 系 。 最 常用 的 颜色 空间 是 RGB 颜色 空间 ， 
大 部 分 数字 图 像 都 是 采用 这 种 颜色 空间 来 表达 的 。 但 是 ，RGB 颜色 空间 模型 并 不 符合 人 们 对 颜 
色相 似 性 的 主观 判断 。 因 此 ， 有 人 提出 了 HSV 颜色 空间 和 Lab 颜色 空间 的 颜色 直方 图 ， 因 为 它 
们 更 接近 于 人 们 对 颜色 的 主观 认识 。 

计算 颜色 直方 图 需要 将 颜色 空间 划分 成 若干 个 颜色 小 空间 ， 每 个 颜色 小 空间 成 为 直方 图 的 
一 个 颜色 元 (bin) ， 这 个 过 程 称 为 颜色 量化 〈Color Quantization) 。 然 后 ， 通 过 计算 颜色 落 在 每 
小 空间 内 的 像素 数量 就 可 以 得 到 颜色 直方 图 。 

选择 合适 的 颜色 元 数目 和 颜色 量化 方法 与 具体 应 用 的 性 能 和 效率 要 求 有 关 。 一 般 来 说 ， 颜 
色 元 的 数目 越 多 ， 直 方 图 对 颜色 的 分 辩 能 力 就 越 强 。 然 而 颜色 元 数目 很 大 的 颜色 直方 图 不 但 会 
增加 计算 负担 ， 也 不 利于 在 大 型 图 像 库 中 建立 索引 。 而 且 对 于 某 些 应 用 来 说 ,使 用 非常 精细 的 颜 
色 空 间 划分 方法 不 一 定 能 够 提高 检索 效果 。 一 种 有 效 减少 颜色 元 数目 的 办 法 是 只 选用 那些 像素 
数目 多 的 颜色 元 ， 因 为 这 些 表示 主要 颜色 的 颜色 元 能 够 表达 图 像 中 大 部 分 像素 的 颜色 。 实 验证 
明 这 种 方法 并 不 会 降低 颜色 直方 图 的 检索 效果 。 事 实 上 ， 由 于 忽略 了 那些 像素 数目 较 少 的 颜色 
元 ,颜色 直方 图 对 噪声 的 敏感 程度 降低 了 ， 有 时 检索 效果 会 更 好 。 

颜色 量化 的 方法 有 很 多 种 ， 可 以 分 为 两 类 : 固定 颜色 模板 和 可 变 颜 色 模板 。 

国定 颜色 模板 有 等 间距 量化 和 非 等 距 量化 两 种 方法 ， 等 间距 量化 是 最 为 常用 的 量化 方法 ， 
它 是 将 颜色 空间 的 各 个 分 量 (维度 ) 均匀 地 进行 划分 。 等 间距 量化 方法 的 实现 非常 简便 易 行 ， 
在 实践 中 得 到 了 广泛 的 使 用 。 非 等 间距 的 量化 方法 需要 人 对 颜色 空间 模型 进行 大 量 分 析 ， 例 如 ， 
对 于 常用 的 HSV 颜色 空间 ， 按 照 人 的 视觉 感知 ， 可 以 将 色调 (H) 分 成 8 份 , 饱和 度 (S) 和 亮 
度 (V) 分 别 分 成 3 份 。 非 等 距 量化 的 效果 与 所 选用 的 颜色 空间 有 直接 的 关系 ， 而 且 在 很 大 程度 
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(©) 数字 图像 与 视频 处 理 


上 取决 于 在 实际 应 用 中 对 图 像 颜色 感知 特性 的 理解 和 分 析 程 度 。 

固定 颜色 模板 有 时 无 法 很 好 地 表示 各 个 图 像 的 颜色 情况 。 可 变 颜色 模板 根据 其 量化 的 方法 
不 同 可 分 为 频 度 序列 算法 、 中 值 裂 分 法 、 中 位 切 分 算法 和 聚 类 量化 法 。 

另外 ， 如 果 图 像 是 RGB 格式 ， 而 直方 图 属于 HSV 颜色 空间 ， 则 可 以 预先 建立 从 量化 的 RGB 
颜色 空间 到 量化 的 HSV 颜色 空间 之 间 的 查找 表 (Look-up Table) ， 从 而 加 快 直方 图 的 计算 过 程 。 

图 像 的 颜色 直方 图 具有 以 下 性 质 。 

1) 直方 图 中 的 值 都 是 统计 而 来 ， 描 述 了 该 图 像 关 于 颜色 的 数量 特征 ， 可 以 反映 图 像 的 部 分 
内 容 。 举 例 来 说 ， 如 果 是 一 幅 “ 蓝 色 的 海洋 ”的 图 像 ,“ 蓝 色 ” 将 是 像素 的 主要 成 分 ， 在 数量 上 
将 占 很 大 的 比例 。 

2) 直方 图 丢失 了 颜色 的 位 置 特征 。 因 此 ， 不 同 的 图 像 可 能 具有 相同 的 颜色 分 布 ， 从 而 也 就 
具有 相同 的 颜色 直方 图 。 

3) 如 果 将 图 像 划 分 为 若干 子 区 域 ,， 这 所 有 子 区 域 的 直方 图 之 和 等 于 全 图 直方 图 。 

4) 一 般 情况 下 ， 由 于 图 像 上 的 背景 和 前 景物 体 颜色 分 布 明 显 不 同 ， 从 而 在 直方 图 上 会 出 现 
双 峰 特性 ， 但 前 景 和 背景 颜色 较为 接近 的 图 像 不 具备 该 性 质 。 

颜色 直方 图 的 优点 是 计算 简单 ， 缺 点 是 无 法 表述 颜色 分 布 的 空间 信息 。 因 此 ， 颜 色 直 方 图 特 
别 适合 用 来 描述 那些 难以 进行 自动 分 割 的 图 像 以 及 不 需要 考虑 物体 空间 位 置 的 图 像 。 

2. 颜色 算 

颜色 和 矩 ( Color Moments) 方法 的 数学 基础 在 于 图 像 中 任何 颜色 分 布 均 可 用 它 的 矩 来 表示 。 此 
外 ， 由 于 颜色 分 布 信息 主要 集中 在 低 阶 矩 中 ， 所 以 只 采用 颜色 的 一 阶 矩 人 、 二 阶 矩 r, 和 三 阶 矩 
s; 就 足以 表达 图 像 的 颜色 分 布 。 与 颜色 直方 图 相 比 ， 该 方法 带 来 的 另 一 个 好 处 在 于 无 须 对 特征 进 
行 矢 量化 。 颜 色 矩 通常 直接 在 RGB 颜色 空间 计算 ， 颜 色 的 3 个 低 阶 矩 的 数学 表达 式 为 ; 


















































































































































































































































1 
/= Pp, (10-1) 
十 
Ci = > Op; -x7] (10-2) 
过 
1 a 
si = > | (10-3) 





式 中 ，p; 是 图 像 中 第 j 个 像素 的 第 i 个 颜色 分 量 ; 是 第 ;个 颜色 分 量 的 像素 数 。 事 实 上 ， 一 阶 矩 
4; 定义 了 每 个 颜色 分 量 的 平均 强度 ， 二 阶 矩 oc, 和 三 阶 矩 * 分 别 定义 了 颜色 分 量 的 方差 和 偏 斜 度 。 

颜色 和 矩 仅 仅 使 用 了 少数 几 个 矩 ， 因 此 可 能 出 现 两 幅 完全 不 同 的 图 像 有 相同 和 矩 的 情况 。 在 实 
际 应 用 过 程 中 ， 为 了 避免 低 阶 矩 较 弱 的 分 辨 能力， 颜色 和 矩 常常 和 其 他 特征 结合 起 来 使 用 ， 通 常 在 
使 用 其 他 特征 之 前 起 到 过 滤 缩 小 范围 的 作用 。 

3. 颜色 集 

颜色 直方 图 和 颜色 矩 上 只 是 考虑 了 图 像 颜色 的 整体 分 布 ， 个 涉及 位 置信 息 。 颜 色 集 表示 则 同 
时 考虑 了 颜色 空间 的 选择 和 颜色 空间 的 划分 。 使 用 颜色 集 表示 颜色 信息 时 ， 通 常 采用 颜色 空间 
HSL。 颜 色 集 表示 方法 的 实现 步骤 如 下 。 

QD 对 于 RGB 颜色 空间 中 的 任意 图 像 ， 它 的 每 个 像素 可 以 表示 为 一 个 矢量 v= (7r,g,b)。 

@) 通过 变换 7 将 其 变换 到 男 一 个 与 人 的 视觉 一 致 的 颜色 空间 w， 即 w = 7T(v)。 

(3 采用 量化 器 0 对 w 重新 量化 ， 使 得 视觉 上 明显 不 同 的 颜色 对 应 着 不 同 的 颜色 集 ， 并 将 颜 
色 集 映射 成 索引 m。 

颜色 集 定义 如 下 : 设 B 是 届 维 的 二 值 空间 ,在 Bv 空间 的 每 个 轴 对 应 唯一 的 索引 m。 一 个 
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其 于 内 容 的 攻 和 入 器 上 志 [©] 


颜色 集 就 是 B, 二 值 空间 中 的 一 个 二 维 矢量 ， 它 对 应 着 对 颜色 |m| 的 选择 ， 即 颜色 索引 m 出 现 
时 ，c[m] =1; 和 否则，c[m] =0。 以 WW=8 为 例 ， 颜 色 集 的 计算 过 程 如 下 。 

设 了 7 是 RGB 到 HSL 的 变换 ，@(MN=8) 是 一 个 将 HSL 量化 成 2 种 色调 、2 个 饱和 度 和 2 级 
亮度 的 量化 器 。 对 于 0, 量化 的 每 种 颜色 ， 赋 给 它 唯一 索引 m， 则 B, 是 8 维 的 二 值 空间 ， 在 B。 
空间 中 ， 每 个 元 素 对 应 一 个 量化 颜色 。 一 个 颜色 集 C 包含 了 从 8 种 颜色 中 的 各 种 选择 。 如 果 该 颜 
色 集 对 应 一 个 单位 长 度 的 二 值 矢量 ， 则 表明 重新 量化 后 的 图 像 只 有 一 种 颜色 出 现 ; 如 果 该 颜色 集 
有 多 个 非 零 值 ， 则 表明 重新 量化 后 的 图 像 中 有 多 种 颜色 出 现 。 例 如 ， 颜 色 集 C = [10010100] ， 表 明 
量化 后 的 HSL 图 像 中 出 现 第 0 种 (m=0)、 第 3 种 (m=3)、 第 5 种 (m=5) 颜色 。 由 于 人 的 视觉 
对 色调 较为 敏感 ， 因 此 ， 在 量化 吉 0, 中 ， 一般 色 调 量 化 级 比 饱 和 度 、 亮 度 的 量化 级 要 多 。 如 色调 
可 量化 为 18 级 ,饱和 度 和 亮度 可 量化 为 3 级 。 此 时 ， 颜 色 集 为 162 维 (M=18 x3x3=162) 的 二 
值 空间 。 

颜色 集 可 以 通过 对 颜色 直方 图 设置 闵 值 直接 生成 ， 如 对 于 某 一 种 颜色 m， 给 定 阅 值 了， 颜 
色 集 与 直方 图 的 关系 为 





































































































1, hlm| 三 7 
ml = ptm] < 了 C4) 
因此 ， 颜 色 集 表示 为 一 个 二 进 制 拓 量 。 
在 图 像 匹 配 过程 中 ,需要 比较 不 同 图 像 颜 色 集 之 间 的 距离 和 色彩 域 空间 关系 。 由 于 颜色 集 
表示 为 二 进 制 的 特征 矢量 ， 所 以 能 构造 二 分 查找 树 来 加 快 检 索 速度 ， 这 对 大 规模 的 图 像 集合 来 
说 十 分 有 利 。 


10.2.3 ”图 像 纹理 特征 的 提取 与 表示 


纹理 是 通过 色彩 或 明暗 度 的 变化 体现 出 来 的 图 像 表面 细节 。 纹 理 通常 被 看 作 图 像 的 某 种 局 
部 性 质 ， 或 是 对 局 部 区 域 中 像素 之 间 关 系 的 一 种 度量 ， 可 认为 是 灰 度 (颜色 ) 在 空间 以 一 定 的 
形式 变化 而 产生 的 图 案 (模式 ) ， 可 用 来 对 图 像 中 的 空间 信息 进行 一 定 程度 的 定量 描述 ， 是 真实 
图 像 区域 回 有 的 特征 之 一 。 纹 理 特 征 包 含 了 物体 表面 结构 组 织 排列 的 重要 信息 以 及 它们 与 周转 
环境 的 联系 ， 图 像 可 以 看 成 是 不 同 纹理 区 域 的 组 合 ， 一 个 纹理 需 用 一 个 向 量 表示 ， 或 者 说 一 个 纹 
理 可 以 用 一 个 多 维特 征 空 间 中 的 一 个 点 表示 。 

通常 ， 纹 理 和 图 像 频 谱 中 的 高 频 分 量 密切 联系 ， 光 滑 的 图 像 〈 主 要 包含 低频 分 量 ) 一 般 不 
认为 是 纹理 图 像 。 要 分 析 纹 理 ， 需 要 确定 一 定 的 尺度 。 纹 理 尺度 与 图 像 分 辨 率 有 关 ， 例 如 ， 从 远 
距离 观察 由 地 板 砖 构成 的 地 板 时 ， 我 们 看 到 的 是 地 板 砖 块 构成 的 纹理 ， 而 没有 看 到 地 板 砖 本 身 
的 纹理 模式 ， 当 在 近 距 离 (只 能 看 到 几 块 砖 的 距离 ) 观察 同样 的 场景 时 ， 我 们 开始 察觉 到 每 一 
块 砖 上 的 详细 模式 ， 如 图 10-4 所 示 。 

关于 图 像 纹理 的 精确 定义 迄今 还 没有 一 个 统一 的 认识 。 一 般 来 说 ， 纹 理 是 指 图 像 强 度 局 部 
变化 的 重复 模式 。 纹 理 形 成 的 机 理 是 图 像 
局 部 模式 变化 太 小 ， 一 般 无 法 在 给 定 的 分 
辩 率 下 把 不 同 的 物体 或 区 域 分 开 。 这 样 ， 
在 一 个 图 像 区 域 中 重复 出 现 满足 给 定 灰 度 
特性 的 一 个 连通 像素 集合 构成 了 一 个 纹理 
























































































































































区 域 。 最 简单 的 例子 是 在 白色 背景 下 黑 点 
的 重复 模式 。 打 印 在 白 纸 上 的 一 行 行 字符 b) 近 距 离 观 察 时 的 纹理 图 像 
也 构成 了 纹理 ， 其 中 的 每 一 个 灰 度 级 基 元 图 10-4 ”由 地 板 砖 构成 的 地 板 纹理 示意 图 
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是 由 表示 每 一 个 字符 的 连通 像素 集合 构成 ; 把 一 个 个 字符 放 在 一 行 ， 把 一 行 行 字 放 在 一 页 ， 就 得 
到 一 个 纹理 。 

纹理 的 分 析 方 法 已 有 不 少 ， 大 致 上 可 分 为 统计 方法 和 结构 方法 。 统 计 方 法 常用 于 分 析 木 纹 、 
沙 地 和 草坪 等 细密 而 规则 的 对 象 ， 并 根据 像素 间 灰 度 的 统计 性 质 对 纹理 规定 出 特征 ， 以 及 特征 
与 参数 的 关系 。 结 构 方法 假定 图 像 由 较 小 的 纹理 基 元 排列 而 成 ， 可 以 根据 纹理 基 元 及 其 排列 规 
则 来 描述 纹理 的 结构 及 特征 ， 以 及 特征 与 参数 间 的 关系 。 它 采用 句法 分 析 方 法 ， 只 适用 于 像 布料 
的 印刷 图 案 或 砖 瓦 等 排列 较 规 则 的 结构 纹理 。 

早 在 20 世纪 70 年 代 ，Haralick 等 人 提出 用 共生 和 抢 阵 ( Co-occurrence Matrix) 来 表示 纹理 特 
征 ， 研 究 了 纹理 的 灰 度 级 的 空间 相关 性 。 首 先 ， 根 据 图 像 像 素 之 间 的 方向 和 距离 构建 共生 和 矩阵 。 
然后 从 共生 和 矩阵 中 提取 有 意义 的 统计 特征 来 表示 纹理 。 

受 人 类 对 纹理 的 视觉 感知 力 的 心理 学 研究 的 启发 ，Tamura 等 人 从 心理 学 研究 中 发 现 重 要 的 
视觉 纹理 特性 ， 发 展 了 近似 计算 ， 提 出 6 个 视觉 纹理 特性 ， 即 : 粗糙 度 ( Coarseness)、 对 比 
(Contrast) 、 方 向 度 (Directionality ) 、 线 像 度 ( Linelikeness)、 规 整 度 (Regularity) 和 粗略 
(Roughness) ， 其 中 ,粗糙 度 、 对 比 度 和 方向 度 这 3 个 分 量 在 图 像 检 索 中 尤为 重要 。Tamura 的 纹 
理 表示 和 共生 和 矩阵 的 一 个 主要 区 别 是 ， 所 有 Tamura 的 纹理 表示 都 是 视觉 上 有 意义 的 ， 而 共生 和 拢 
阵 中 的 纹理 表示 却 不 一 定 在 视觉 上 有 意义 。 


10.2.4 图 像 形 状 特征 的 提取 与 表示 


图 像 中 物体 和 区 域 的 形状 是 图 像 表 达 和 图 像 检 索 中 要 用 到 的 男 一 重要 特征 。 由 于 形状 特征 
的 表示 首先 要 解决 的 问题 是 将 不 同 物体 从 图 像 中 分 割 出 来 ， 这 是 计算 机 视觉 的 难题 之 一 ， 至 今 
没有 很 好 解决 ， 所 以 图 像 检 索 中 的 形状 特征 只 能 在 某 些 特殊 应 用 场合 使 用 ， 在 这 些 应 用 中 图 像 
所 包含 的 物体 或 者 区 域 可 以 直接 获得 。 此 外 ， 由 于 人 们 对 物体 形状 的 变换 、 旋 转 和 缩放 在 主观 上 
不 太 敏 感 ， 合 适 的 形状 特征 必须 满足 对 变换 、 旋 转 和 缩放 无 关 ， 但 要 找到 一 种 符合 人 们 主观 判断 
的 形状 相似 性 度量 算法 还 有 一 些 待 解决 的 问题 。 

一 般 来 说 ， 形 状 描述 有 两 种 表示 方法 : 基于 边界 和 基于 区 域 ， 所 对 应 的 描述 符 分 别 是 傅 里 
叶 形 状 描述 符 和 不 变 矩 。 傅 里 叶 形 状 描述 符 的 基本 思想 是 将 物体 边界 的 传 里 叶 变 换 作 为 它 的 形 
状 描述 ， 用 较 少 的 参数 包 纳 很 复杂 的 边界 。 不 变 矩 的 主导 思想 是 利用 基于 区 域 的 矩 ， 这 些 矩 和 形 
状 特性 一 样 ， 在 变换 中 保持 了 不 变性 。 除 了 这 些 采 用 全 局 特征 的 方法 ， 还 有 研究 者 用 一 系列 局 部 
地 征 ， 如 直线 段 、 圆 绝 、 角 点 、 高 曲率 点 等 来 描述 形状 ， 以 解决 速 挡 问题 。 


10.2.5 图 像 空间 关系 特征 的 提取 与 表示 


图 像 空间 关系 特征 的 提取 通常 有 两 种 方法 : 一 种 是 先 对 图 像 进 行 自动 分 割 ， 分 割 出 图 像 中 
所 包含 的 对 象 或 者 颜色 区 域 ， 然 后 根据 这 些 区 域 来 对 图 像 进行 索引 ; 男 一 种 是 将 图 像 均匀 划分 
成 若干 个 规则 的 子 块 ， 然 后 针对 每 个 图 像 子 块 分 别提 取 特 征 并 建立 索引 。 

1. 基于 图 像 分 割 的 方法 

这 类 方法 中 的 图 像 空间 关系 特征 主要 包括 二 维 符号 串 (2D-string) 、 空 间 四 叉 树 和 符号 图 像 
(Symbolic Image) 。 其 中 ， 二 维 符号 串 方 法 的 基本 思想 是 将 图 像 沿 着 X 轴 方向 和 了 轴 方 向 进行 投 
影 ， 然 后 按 二 维 子 串 匹配 进行 图 像 空间 关系 的 检索 。 这 种 方法 比较 简单 ， 但 利用 对 象 质心 不 足以 
表达 对 象 的 空间 位 置 关系 ， 而 且 描 述 的 关系 太 简 单 ， 实 际 图 像 中 的 空间 关系 要 复杂 得 多 。 符 号 图 
像 方 法 是 基于 图 像 中 全 部 有 意义 的 对 象 已 经 被 预先 分 割 的 前 提 之 下 ,将 每 个 对 象 用 质心 坐标 和 
一 个 符号 名 字 代 表 ， 从 而 构成 一 整 幅 图 像 的 索引 。 这 种 方法 假设 所 有 对 象 都 可 以 通过 一 定 的 特 
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征 被 精确 地 识别 出 来 ， 因 而 只 需要 关注 如 何 匹 配对 象 的 空间 关系 即 可 。 但 是 ， 对 象 并 非 总 是 由 某 
些 确定 特征 来 构成 的 。 需 要 补充 说 明 的 是 ， 除 了 少数 特殊 应 用 以 外 ， 图 像 自 动 分 割 对 大 多 数 应 用 
来 说 是 相当 困难 的 。 通 常 ， 分 割 算法 所 划分 的 仅仅 是 区 域 而 不 是 对 象 。 如 果 想 在 图 像 检 索 中 获得 
高 层 语义 上 的 对 象 ， 就 需要 人 工 辅助 才 行 。 例 如 ，Samadani 和 Han 等 人 提出 了 计算 机 辅助 下 的 
边界 提取 法 ,将 用 户 手工 输入 和 计算 机 图 像 边 界 生 成 算法 结合 起 来 使 用 。 

2. 基于 图 像 子 块 的 方法 

为 了 克服 图 像 准确 自动 分 割 的 困难 ， 同 时 又 要 提供 有 关 图 像 区 域 空 间 关 系 的 基本 信息 ， 可 
以 采取 一 种 折 中 的 方法 ， 即 先 将 图 像 预 先 分 制 成 看 干 子 块 ， 然 后 分 别提 取 每 个 子 块 的 各 种 特征 。 
在 检索 过 程 中 ， 首 先 根据 特征 计算 出 图 像 中 相应 子 块 之 间 的 相似 度 ， 然 后 通过 加 权 计 算 总 的 相 
似 度 。 类 似 的 方法 还 有 四 又 树 方法 ， 即 将 整个 图 像 看 成 是 四 又 树 的 结构 ， 用 每 个 分 支 的 直方 图 来 
描述 颜色 特征 。 该 方法 可 以 支持 对 象 空 间 关系 的 检索 方法 (如 将 一 个 图 划分 成 几 个 小 子 块 ， 在 
每 个 子 块 中 匹配 相应 的 特征 来 实现 ) 。 

尽管 这 些 方法 从 概念 上 来 说 非常 简单 ， 但 这 种 普通 规则 的 分 块 并 不 能 精确 地 给 出 局 部 色彩 
的 信息 ， 而 且 计 算 和 存储 的 代价 都 比较 昂贵 。 因 此 ， 这 些 方法 在 实际 中 获得 的 应 用 较 少 ， 从 而 给 
基于 对 象 空间 关系 的 图 像 检 索 带 来 了 一 定 困难 。 


10.2.6 图 像 的 相似 性 度量 


颜色 、 纹 理 和 形状 等 图 像 特 征 被 提取 出 来 ， 并 且 形 成 特征 向 量 以 后 ， 就 可 以 用 特征 向 量 来 表 
达 对 应 的 图 像 。 在 图 像 检 索 过 程 中 ， 判 断 图 像 之 间 是 否 相 似 主要 是 通过 比较 特征 向 量 是 否 相似 
来 进行 的 。 也 就 是 说 ， 将 图 像 特征 向 量 之 间 的 比较 可 以 看 成 是 图 像 相 似 性 的 比较 。 显 然 ， 一 个 好 
的 特征 向 量 比 较 算法 会 对 图 像 检 索 结 果 产 生 较 大 影响 。 

基于 文本 的 图 像 检 索 采 用 的 是 基于 文本 的 精确 匹配 方法 ， 而 基于 内 容 的 图 像 检索 则 是 通过 
计算 查询 图 像 与 候选 图 像 之 间 视 觉 特 征 的 相似 度 来 完成 的 。 

在 对 图 像 内 容 进行 描述 时 ， 主 要 采用 特征 向 量 方式 。 因 此 ， 常 用 的 图 像 相似 度 比 较 方法 也 是 
基于 向 量 空间 模型 的 ， 可 以 将 图 像 特征 看 作 是 向 量 空间 中 的 点 ， 通 过 计算 两 个 点 之 间 的 接近 程 
度 来 衡量 图 像 特征 之 间 的 相似 度 。 

如 果 查 询 图 像 的 特征 向 量 为 全 = (xi ,x;,… ,x,) ， 某 个 候选 图 像 的 特征 向 量 为 了 = (y,,y;,…， 
y,) ， 大 满足 相似 性 度量 中 的 正定 性 、 对 称 性 和 三 角 不 等 性 度量 公理 ， 则 可 以 通过 比较 系 和 了 之 
间 的 距离 大 小 ， 来 判断 查询 图 像 与 候选 图 像 之 间 是 否 相 似 。 

1. Manhattan 距离 

Manhattan 距离 又 称 街区 距离 ， 其 定义 为 
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d(X,Y) = 之 |x;—y, | (10-5) 
2. 欧 几 里 得 距离 





dK) = /Yr y) (10-6) 


当 所 有 特征 向 量 不 具备 相同 权重 时 ， 需 要 对 其 进行 归 一 化 ， 即 
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3. Mahalanobis 距离 
如 果 特 征 向 量 的 各 个 分 量 之 间 具 有 相关 性 或 是 具有 不 同 的 权重 ， 则 可 以 采用 Mahalanobis 距 
离 来 计算 它们 之 间 的 相似 度 。Mahalanobis 距离 又 称 马 氏 距离 ， 其 定义 为 
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d(X,Y) = V(X-Y)C  (X-Y) (10-8) 
式 中 ，C ' 是 特征 向 量 的 协 方差 矩阵 C 的 逆 和 矩阵， 如 果 C 是 恒 等 矩阵 ， 那 么 马 氏 距 离 就 变 成 欧 几 





里 得 距离 了 。 

4. 直方 图 交集 距离 

设 全 和 了 分 别 是 查询 图 像 和 某 个 候选 图 像 的 颜色 直方 图 ， 它 们 都 含有 n 个 颜色 元 (bin ) ， 
则 它们 之 间 的 直方 图 交集 ( Histogram Intersection) 距离 定义 为 








dX,Y) = 2 min(%,y,) (10-9) 
式 中 ，x 和 y 分 别 是 和 和 了 中 第 ;个 颜色 元 的 像素 数 。 
所 谓 直方 图 交集 ， 是 指 两 个 直方 图 在 每 个 颜色 元 中 共有 的 像素 数量 。 有 时， 该 值 还 可 以 通过 
除 以 其 中 一 个 直方 图 中 所 有 的 像素 数 来 实现 归 一 化 ， 从 而 使 它 处 于 [0,，1] 的 值 域 范围 ， 其 表 
达 式 为 




































































d(X,Y) = 一 一 (10-10) 


S. 直方 图 二 次 式 距离 

对 基于 颜色 直方 图 的 图 像 检 索 来 说 ， 二 次 式 距离 已 被 证 明 要 比 使 用 欧 几 里 得 距离 或 是 直方 
图 交集 距离 更 有 效 一 些 ， 原 因 在 于 这 种 距离 考虑 到 不 同 颜 色 之 间 存 在 的 相似 度 问 题 。 两 个 颜色 
直方 图 对 和 了 之 间 的 二 次 式 距离 可 以 表示 为 

d(X,Y) =(X-Y)'A(X-Y) (10-11) 

二 次 式 距离 通过 引入 颜色 相似 性 矩阵 4， 使 它 能 够 考虑 到 相似 但 不 相同 的 颜色 之 间 的 相似 性 
因素 。 其 中 ,4 =[a,]，a; 表 示 直 方 图 中 下 标 为 i 和 j 的 两 个 颜色 元 之 间 的 相似 度 。 

对 于 RGB 颜色 空间 ， 有 



































=] d; 
全 本 max( d;) 
式 中 ,4d, 是 直方 图 中 下 标 为 i 和 j 的 两 个 颜色 元 之 间 的 欧 几 里 得 距离 。 
10.2.7 图 像 检索 中 的 相关 反馈 机 制 


由 于 利用 上 述 这 些 低层 视觉 特征 的 相似 性 度量 与 人 眼 的 主观 感知 存在 一 定 的 差异 ， 所 以 ， 
在 实际 的 检索 系统 中 ， 通 常 按 某 种 相似 性 度量 计算 查询 图 像 与 数据 库 中 每 幅 图 像 的 相似 度 ， 然 
后 按 相 似 度 由 大 到 小 的 顺序 输出 一 组 所 谓 的 相似 图 像 供用 户 选 择 。 为 了 使 数据 库 内 的 图 像 分 类 
更 接近 用 户 的 主观 愿望 ， 使 检索 符合 用 户 的 个 性 化 要 求 ， 目 前 的 研究 热点 是 结合 相关 反馈 ( Rel- 
evance Feedback) 技术 ,通过 人 机 交互 的 方式 来 捕捉 和 建立 低层 特征 和 高 层 语义 之 间 的 关联 。 

在 基于 内 容 的 图 像 检 索 中 ， 查 询 得 到 的 结果 应 该 是 一 组 和 用 户 提交 的 查询 请 求 相 似 的 图 像 
集合 ， 然 而 由 于 基于 内 容 的 图 像 检 索 还 无 法 达到 非常 精确 的 匹配 ， 结 果 中 必然 含有 非 用 户 想 要 
查询 的 图 像 。 因 而 ， 用 户 在 结果 中 再 次 选择 与 其 检索 目标 最 接近 的 图 像 作 为 示例 图 像 进行 二 次 
查询 ， 系 统 将 根据 用 户 的 反馈 信息 对 图 像 库 进行 相应 的 修改 ， 并 重新 返回 一 组 结果 ， 这 样 的 过 程 
就 是 图 像 检 索 中 的 用 户 相 关 反馈 问题 。 
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量 于 内 容 的 图 像 和 视频 检索 


相关 反馈 可 以 让 用 户 的 个 性 化 反映 到 结果 中 ， 并 提高 系统 的 适应 性 。 在 一 组 结果 中 ， 用 户 对 
其 满意 的 图 像 赋 予 正 反 饿 ， 对 其 不 满意 的 图 像 赋 予 负 反馈 ， 使 得 系统 能 够 逐步 细 化 其 检索 结果 ， 
从 而 提高 检索 精度 。 系 统 还 可 以 从 示例 图 像 的 语义 特征 中 推导 出 检索 结果 中 正 反 馈 和 人 负 反馈 图 
像 的 语义 信息 。 


10.3 基于 内 容 的 视频 检索 

































































10. 3.1 基于 内 容 的 视频 检索 概述 


随 着 多 媒体 技术 和 网 络 技术 的 飞速 发 展 ， 数 字 视 频 的 产生 、 传 播 和 获取 变 得 越 来 越 容易 ， 已 
经 逐渐 成 为 人 类 信息 传播 的 主要 载体 之 一 。 在 视频 传输 和 存储 问题 得 到 发 展 的 同时 ， 人 们 所 面 
临 的 问题 已 不 再 是 视频 内 容 的 匮乏 ， 而 是 对 海量 视频 的 高 效 检 索 和 浏 览 。 所 谓 视频 检索 是 指 从 
大 量 的 视频 数据 中 检索 到 一 段 包含 特定 信息 的 视频 片段 ， 例 如 : 足球 比赛 中 的 射门 镜头 、 含 有 日 
出 景色 的 片段 等 。 

传统 的 视频 检索 系统 主要 是 基于 人 工 标注 的 文本 检索 ， 即 通过 手工 的 方法 对 视频 信息 用 文 
本 关键 词 进行 标注 ， 再 根据 用 户 键入 的 检索 词 ， 按 关键 词 匹配 程度 查找 相似 文本 ， 从 而 检索 到 相 
应 的 视频 。 这 种 检索 方式 对 检索 结构 化 的 文本 信息 方便 有 效 ， 但 是 对 于 视频 的 检索 却 遇 到 了 下 
列 难题 。 

1) 为 了 满足 如 今 海量 的 视频 数据 检索 需求 ， 人 工 标注 需要 大 量 的 人 力 ， 对 于 一 个 大 型 的 视 
频数 据 库 ， 建 库 成 本 高 、 周 期 长 。 

2) 人 工 标注 的 主观 性 强 ， 不 同人 产生 的 文本 标注 可 能 不 同 ， 使 得 检索 结果 具有 一 定 的 随 
机 性 。 

3) 文本 标注 难以 描述 视频 数据 中 的 视觉 内 容 ， 人 工 生成 的 文本 标注 通常 相当 概括 ， 很 难 与 
人 的 视觉 感受 ， 比 如 颜色 、 纹 理 等 联系 起 来 ， 使 用 户 的 查询 受到 很 大 的 限制 ， 从 而 造成 检索 结果 
的 不 准确 或 错误 。 

4) 人 工 标注 无 法 运用 于 实时 流 媒 体 播 放 系统 。 

为 了 克服 传统 方法 带 来 的 问题 ， 就 要 求 能 够 对 视频 数据 进行 基于 内 容 语义 的 分 析 ， 以 达到 
基于 内 容 语 义 的 深层 次 检索 ， 这 就 是 基于 内 容 的 视频 检索 技术 (Content- Based Video Retrieval ， 
CBVR)。 它 在 没有 人 工 参与 的 情况 下 ， 自 动 提取 并 描述 视频 的 特征 和 内 容 ， 根 据 视频 的 内 容 和 
上 下 文 关 系 ， 对 大 规模 视频 数据 库 中 的 视频 数据 进行 检索 。 

基于 内 容 的 视频 检索 具有 如 下 特征 。 

(1) 基于 内 容 的 视频 检索 对 于 视频 特征 的 描述 更 具有 客观 性 

基于 内 容 的 视频 检索 突破 了 传统 的 基于 文本 视频 检索 的 局 限 性 ， 它 从 视频 数据 的 底层 特征 
和 高 层 语义 分 析出 发 ， 直 接 对 视频 内 容 进 行 分 析 。 通 过 构建 结构 化 的 视频 数据 ， 基 于 内 容 的 视频 
检索 提取 视频 的 语义 、 视 觉 等 加 有 特征 ， 并 利用 这 些 特征 建立 索引 进行 检索 ， 避 免 了 用 文本 标注 
视频 的 转化 过 程 。 基 于 内 容 的 视频 检索 将 有 关联 的 或 具有 上 下 文联 系 的 信息 组 织 在 一 起 ， 实 现 
言 息 的 自动 组 织 ， 使 得 视频 检索 更 具有 客观 性 ， 更 接近 视频 对 象 的 实质 。 

(2) 基于 内 容 的 视频 检索 是 一 种 近似 匹配 

由 于 对 视频 数据 解释 的 多 样 性 和 模糊 性 ， 使 得 基于 内 容 视频 检索 时 对 视频 内 容 的 表示 不 是 
一 种 精确 描述 。 由 于 视频 数据 之 间 关 系 复杂 ， 难 以 定义 造成 了 视频 数据 单元 之 间 关 系 的 不 明确 ， 
查询 时 无 法 像 字符 数值 型 数据 ， 用 一 个 指定 的 字段 作为 关键 字 确 切 地 查询 一 个 特定 的 记录 ， 也 
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无 法 像 文本 数据 库 中 准确 地 比较 各 数据 单元 关系 〈 相 等 或 是 不 相等 ) ， 因 此 在 基于 内 容 的 视频 检 
索 中 ， 视 频数 据 的 比较 不 是 精确 匹配 ， 而 是 近似 匹配 ， 即 一 种 相似 性 比较 。 上 具体 比较 时 通常 采用 
和 欠 代 和 逐步 求 精 的 相似 性 匹配 方法 ， 不断 缩 小 查询 结果 的 范围 ， 直 到 找到 用 户 满意 的 视频 为 止 。 

(3) 基于 内 容 的 视频 检索 是 交互 式 的 

基于 内 容 的 视频 检索 对 难以 用 文字 描述 的 特征 通常 采用 以 示例 查询 的 方式 提问 ， 即 系统 向 
用 户 提供 多 个 示例 ， 用 户 选择 一 个 查询 例子 提交 系统 ， 系 统 通 过 查询 接口 将 媒体 库 中 的 查询 结 
果 返 回 给 用 户 。 用 户 提交 查询 例子 时 ， 还 会 设 定 一 些 属 性 值 一 起 提交 查询 。 为 了 证 用 户 更 好 的 摘 
述 其 查询 请 求 ， 基 于 内 容 的 视频 检索 系统 应 把 交互 操作 引 和 人 到 查询 过 程 中 ， 这 可 以 通过 为 用 户 
提供 一 个 友好 的 人 机 界面 来 实现 。 在 检索 过 程 中 ， 用 户 可 以 根据 每 次 检索 的 结果 ， 进 行 逐 步 求 
精 ， 不 断 缩小 查询 范围 ， 获 得 理想 的 检索 结果 。 基 于 内 容 视频 检索 的 这 种 交互 性 ， 充 分 发 挥 了 人 
和 计算 机 各 自 的 长 处 。 

基于 内 容 的 视频 检索 中 的 相关 反馈 技术 就 是 一 种 交互 式 技术 。 它 通过 人 机 交互 的 方式 建立 
低层 特征 和 高 层 语义 之 间 的 关联 ， 实 时 地 修改 系统 查询 策略 ， 增 加 视频 检索 系统 的 自 适应 功能 。 

(4) 基于 内 容 的 视频 检索 是 多 层次 的 

基于 内 容 的 视频 检索 是 基于 内 容 的 多 媒体 检索 技术 的 重要 内 容 之 一 。 基 于 内 容 的 多 媒体 检 
索 系 统 通 常 由 媒体 库 、 特 征 库 和 知识 库 组 成 。 媒 体 库 中 存储 多 媒体 数据 ， 如 图 像 、 视 频 、 音 频 和 
文本 等 ; 特征 库 中 包含 用 户 输入 的 客观 特征 和 预 处 理 自动 提取 的 内 容 特征 ; 知识 库 包 含 领域 知 
识 和 通用 知识 ， 其 中 的 知识 表达 可 以 更 换 ， 以 适应 不 同 领域 的 应 用 要 求 ， 利 用 这 些 库 可 以 满足 用 
户 多 层次 的 检索 要 求 。 


10.3.2 视频 内 容 的 结构 化 


由 于 视频 具有 非 结构 化 的 特点 ， 这 就 要 求 在 基于 内 容 的 检索 系统 的 设计 过 程 中 首先 解决 视 
频 内 容 的 结构 化 问题 。 合 理 的 结构 化 表示 将 有 助 于 后 续 的 特征 和 内 容 分 析 及 用 户 检索 。 为 了 对 
视频 数据 进行 有 效 的 索引 和 检索 ， 首 先 需 要 将 视频 分 割 成 合适 的 具有 一 定语 义 的 基本 单元 。 一 
般 对 视频 采用 如 图 10-5 所 示 的 分 层 结构 来 表示 。 
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四 10-5 ”视频 分 层 结 构 表 示 和 处 理 流程 
一 般 来 说 ,一 段 视频 由 一 些 描述 独立 故事 单元 的 场景 (Scene) 构成 ; 一 个 场景 由 一 些 语义 
相关 的 镜头 (Shot) 组 成 ; 而 每 个 镜头 是 指 摄像 机 从 按 下 “记录 ”按钮 到 按 下 “停止 ”按钮 之 
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于 内 容 的 图 信和 闹 讽 折 (@ 


间 所 记录 下 来 的 一 些 连续 的 帧 序列 ， 它 可 由 一 个 或 多 个 关键 帧 ( Key frame) 来 代表 ; 帧 
(Frame) 是 视频 中 最 基本 的 单元 。 镜 头 和 场景 是 视频 检索 中 最 常见 的 两 种 基本 单元 。 

以 下 是 视频 内 容 结构 化 中 常用 的 一 些 基 本 概念 。 

。 视频 ， 由 一 系列 静态 图 像 帧 组 合 而 成 的 (其 中 包含 摄像 机 运动 、 目 标 运动 等 信息 )， 用 来 
\ 述 在 时 间 和 空间 上 由 情节 和 事件 组 成 的 故事 或 传达 特定 的 视觉 内 容 。 

。 帧 ， 帧 是 组 成 视频 的 最 小 视觉 单位 ， 是 指 视频 中 空间 上 独立 、 时 间 上 相关 的 一 幅 独 立 的 图 
像 。 空 间 上 的 独立 是 指 这 些 帧 可 以 从 视频 中 被 单独 抽取 出 来 作为 一 幅 静 态 图 像 进行 分 析 处 理 ， 
时 间 上 相关 是 指 同一 镜头 内 的 相 邻 帧 在 低层 特征 或 高 层 特征 上 具有 某 种 相似 的 特性 。 将 时 间 上 
连续 的 帧 序列 合成 到 一 起 便 形 成 动态 视频 。 在 PAL 制 视频 格式 中 ， 帧 率 为 25 帧 /s; 在 NTSC 制 
视频 格式 中 ， 帧 率 为 30 帧 /s。 

。 镜 头 : 指 摄像 机 从 打开 到 关闭 过 程 一 次 连续 拍摄 所 记录 的 帧 序列 ， 它 是 一 段 视频 的 物理 组 
成 单元 。 在 这 段 时 间 内 ， 摄 像 机 可 以 有 各 种 运动 及 变焦 等 操作 ， 但 没有 摄像 机 信和 号 的 中 断 ， 因 此 
一 个 镜头 内 的 视频 内 容 不 会 有 大 的 变化 。 镜 头 可 作为 视频 数据 最 基本 的 表达 和 索引 单元 。 

。 关键 帧 : 为 了 减 小 数据 量 ， 提 高 检索 效率 ， 需 要 从 镜头 中 提取 一 定数 量 的 视频 帧 来 表达 该 
镜头 的 内 容 ， 这 种 特殊 的 视频 帧 称 为 镜头 关键 帧 。 它 是 用 于 描述 一 个 镜头 或 场景 的 一 帧 图 像 ， 通 
常会 反映 一 个 镜头 或 场景 的 主要 内 容 。 依 据 镜头 及 场景 内 容 的 复杂 程度 和 关键 帧 的 提取 方法 ， 
可 以 从 一 个 镜头 中 提取 一 个 或 多 个 关键 帧 。 

。 场景 : 是 由 一 组 表达 同一 主题 、 语 义 相关 的 镜头 组 成 ， 这 些 镜头 不 一 定 在 时 间 上 连续 ， 但 
从 不 同 的 角度 描述 了 发 生 在 同一 时 间 和 /或 同一 地 点 的 同一 个 事件 或 多 个 并 行事 件 。 场 景 是 视频 
所 区 含 的 高 层 抽 象 概念 和 语义 的 表达 。 如 ,“ 学 校 运动 会 ”这 个 场景 可 以 由 “运动 员 和 人 场 ”“ 运 
动员 比赛 ”和 “观众 呐喊 ”等 若干 镜头 组 成 ， 虽 然 每 个 镜头 所 代表 的 语义 不 多 ， 但 是 若干 镜头 
所 组 合成 的 场景 就 表达 了 一 个 符合 人 们 思维 的 比较 丰富 的 语义 。 场 景 描 述 了 一 个 独立 的 故事 单 
元 (或 者 说 是 一 个 高 层 概念 ) ， 它 是 一 段 视频 的 语义 组 成 单元 。 有 些 文献 也 将 场景 称 作 视频 片段 
(Video Clip) 、 情 节 (Episode) 或 故事 单元 (Story Unit) 等 。 


10.3.3 基于 内 容 的 视频 检索 工作 流程 


基于 上 述 的 视频 组 织 方法 ， 基 于 内 容 的 视频 检索 系统 的 工作 流程 如 图 10-6 所 示 。 系 统 首 先 
通过 镜头 边界 的 检测 把 一 段 视频 分 割 成 最 基本 的 语义 单元 一 一 镜头 ， 这 个 过 程 就 是 镜头 分 割 。 
视频 被 分 成 镜头 以 后 ， 需 要 对 每 个 镜头 选取 若干 帧 来 表示 镜头 ， 这 个 过 程 称 为 提取 关键 帧 。 在 此 
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图 10-6 基于 内 容 的 视频 检索 工作 流程 
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基础 上 可 以 进行 特征 提取 ， 形 成 对 镜头 特征 的 描述 ， 用 来 对 镜头 内 容 进行 比较 ， 这 个 过 程 包括 动 
态 特 征 提 取 和 静态 特征 的 提取 。 动 态 特 征 的 提取 是 用 一 组 参数 值 或 表示 空间 关系 如 何 随 时 间 变 
化 的 符号 捉 来 表示 镜头 中 的 运动 信息 ， 形 成 运动 特征 的 描述 ;静态 特征 的 提取 是 针对 关键 帧 进 
行 的 ， 提 取 关 键 帧 的 颜色 、 纹 理 、 形 状 等 的 特征 描述 。 特 征 提取 完成 以 后 ， 就 可 以 以 这 些 特征 为 
基础 对 镜头 进行 肾 类 ， 形 成 更 高 层次 的 视频 描述 一 一 场景 ,这 样 更 高 一 级 的 语义 特征 就 引入 到 
了 基于 内 容 的 视频 检索 中 ， 同 时 这 些 特 征 还 可 作为 一 种 检索 机 制 存 人 视频 数据 库 中 形成 数据 库 
的 索引 。 系 统 最 后 根据 用 户 提交 的 查询 条 件 形成 特征 描述 ， 用 此 来 和 视频 数据 库 中 的 视频 特征 
进行 比 对 ， 按 相似 性 程度 提交 给 用 户 。 用 户 再 根据 查询 的 结果 与 预期 的 结果 向 系统 反馈 ， 系 统 根 
据 反馈 信息 调整 检索 过 程 ， 最 终 从 视频 数据 库 中 输出 满足 用 户 需 求 的 结果 。 


10.3.4 基于 内 容 的 视频 检索 系统 结构 


典型 的 基于 内 容 的 视频 检索 系统 结构 如 图 10-7 所 示 ， 系 统 主要 由 5 个 模块 组 成 ， 包 括 查询 
模块 、 描 述 模块 、 匹 配 模块 、 提 取 模 块 和 验证 〈 反 馈 ) 模块 。 
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图 10-7 基于 内 容 的 视频 检索 系统 结构 


1. 查询 模块 

其 主要 功能 是 对 用 户 提 供 多 样 的 查询 手段 ， 以 支持 用 户 根 据 不 同 应 用 进行 各 种 类 型 的 查询 
工作 。 友 好 的 人 机 界面 可 以 大 大 提高 检索 效率 ， 因 此 我 们 必须 提供 一 个 可 视 化 的 输入 手段 ， 可 采 
用 的 方式 有 三 种 : 示例 输入 方式 、 模 板 选择 输入 方式 和 用 户 提 交 特 征 样板 的 输入 方式 。 

在 查询 模块 中 有 两 个 问题 值得 注意 ,一 是 用 户 和 常常 很 难 精确 地 用 语言 定义 他 们 的 查询 ， 二 
是 带 有 抽象 意义 的 概念 用 语言 或 者 图 形 都 很 难 刻 画 。 这 些 问题 都 是 在 我 们 设计 查询 模块 时 必须 
考虑 到 的 。 

2. 描述 模块 

其 主要 功能 是 对 视频 进行 特征 提取 。 主 要 包括 两 方面 的 工作 : 一 方面 是 在 视频 入 库 时 提取 
特征 建立 索引 ， 另 一 方面 是 在 查询 时 将 用 户 的 查询 要 求 转 化 为 对 视频 内 容 的 比较 抽象 的 内 容 表 
达 和 描述 。 这 里 的 特征 提取 包含 对 原始 视频 流 单元 的 特征 提取 ， 还 包括 以 场景 、 镜 头 、 帧 为 单位 
进行 的 低级 特征 提取 以 及 高 级 语义 特征 的 提取 。 通 过 这 个 过 程 ， 将 视频 中 的 物理 或 语义 信息 提 
取出 来 ， 如 颜色 、 纹 理 、 形 状 、 运 动 和 文字 等 ， 这 些 信息 将 作为 视频 内 容 的 一 个 重要 特征 并 结合 
一 定 的 相似 度 度量 方法 用 于 视频 检索 过 程 。 

3. 匹配 模块 

其 主要 功能 是 在 视频 库 中 按 一 定 的 匹配 原则 搜索 所 需 的 视频 内 容 。 因 为 对 被 查询 视频 的 表 
达 描 述 在 视频 入 库 时 已 经 建立 了 ， 所 以 将 对 查询 视频 的 描述 与 视频 数据 库 中 的 被 查询 视频 的 描 
述 进行 匹配 和 比较 就 可 以 确定 它们 在 内 容 上 的 一 致 性 和 相似 性 ， 这 个 匹配 的 结果 将 传 给 提取 模 
块 ， 并 由 提取 模块 交付 给 用 户 。 在 这 个 过 程 中 所 谓 匹 配 是 利用 特征 之 间 的 距离 函数 来 进行 相似 
性 衡量 ， 因 此 检索 系统 中 必须 包括 一 个 较为 有 效 而 且 可 靠 的 相似 性 测度 函数 集 ， 这 些 相似 性 测 
度 函 数 的 好 坏 直接 影响 检索 性 能 。 
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其 于 内 容 的 区 和 和 器 上 志 [©] 


对 视频 相似 性 的 衡量 主要 包括 以 下 三 个 方面 : 特征 相似 性 、 顺 序 相似 性 及 时 间 跨 度 性 。 特 征 
相似 性 是 指 用 户 给 定 示 例 的 特征 和 视频 数据 库 中 视频 段 的 特征 的 相似 度 ， 这 是 大 部 分 视频 及 图 
像 检 索 中 常用 的 相似 性 度量 准则 。 顺 序 相 似 性 是 指 由 于 视频 具有 显著 的 顺序 化 的 特点 ， 因 此 具 
有 很 强 的 上 下 文 约束 ,顺序 相似 性 就 是 针对 这 种 上 下 文 约束 提出 来 的 。 时 间 跨 度 性 是 指 在 视频 
段 的 检索 中 ,虽然 视觉 特征 和 时 间 上 的 顺序 性 都 相同 ,但 可 能 存在 时 间 跨 度 性 不 同 ， 即 同一 视频 
段 在 时 间 轴 上 的 播放 速度 不 同 ， 从 而 导致 播放 时 间 不 同 。 

4. 提取 模块 

提取 模块 的 主要 功能 是 在 匹配 的 基础 上 将 所 有 满足 给 定 条 件 的 视频 自动 地 从 视频 数据 库 中 
提取 出 来 交付 给 用 户 。 当 数据 库 非常 大 的 时 候 ， 为 避免 顺序 地 扫描 数据 库 ， 需 要 建立 索引 ， 索 引 
结构 可 以 通过 比较 视频 属性 和 用 户 提 交 的 查询 特征 将 所 有 无 关 视频 小 除 。 可 以 把 视频 索引 分 为 
三 类 : 基于 注释 的 索引 、 基 于 特征 的 索引 和 基于 特定 领域 的 索引 。 基 于 注释 的 索引 是 指 对 视频 模 
型 中 的 定性 特征 建立 的 索引 ， 这 种 索引 涉及 的 是 视频 的 语义 内 容 ， 通 常 采用 计算 机 辅助 下 的 手 
工 索引 。 基 于 特征 的 索引 是 对 视频 模型 中 的 定量 特征 建立 索引 ， 它 的 目标 是 建立 全 自动 的 索引 。 
基于 特定 领域 的 索引 是 指 专门 针对 某 个 领域 建立 的 索引 ， 它 们 一 般 有 固定 的 模式 。 

5. 验证 (反馈 ) 模块 

提取 的 结果 一 般 是 一 组 在 不 同 程度 上 满足 给 定 描述 的 视频 ， 一 般 是 按 相似 度 从 高 到 低 的 次 
序 排 列 。 这 些 结果 不 一 定 满 足 用 户 要 求 ， 为 此 需要 借助 验证 模块 来 进行 检验 。 对 结果 的 验证 在 基 
于 内 容 的 视觉 检索 中 占有 重要 的 地 位 ， 一 方面 检索 的 结果 是 让 用 户 观 察 的 ， 用 户 的 判断 是 最 后 
的 裁决 ; 另 一 方面 ， 用 户 在 检索 环节 中 起 主动 作用 ， 是 用 户 启动 查询 ， 确 定 搜索 方向 的 。 为 此 ， 
用 户 要 与 系统 进行 交互 ， 基 于 内 容 交 互 的 接口 在 新 一 代 视频 检索 系统 中 起 着 重要 作用 ， 通 过 让 
用 户 在 浏览 和 根据 内 容 查询 间 切 换 可 以 提供 对 视频 信息 的 有 效 访问 。 


10.3.5 镜头 切换 的 基本 概念 


视频 镜头 是 指 由 同一 摄像 机 连续 拍摄 的 一 系列 相互 关联 的 帧 ， 代 表 了 一 个 连续 的 动作 。 镜 
头 可 作为 视频 数据 最 基本 的 表达 和 索引 单元 。 一 个 视频 节目 总 是 由 许多 镜头 通过 各 种 剪辑 手段 
结合 而 成 。 视 频 处 理 首先 需要 将 视频 自动 地 分 割 为 镜头 ， 以 此 作为 基本 的 索引 单元 ， 这 一 过 程 就 
是 镜头 边界 检测 。 它 是 实现 基于 内 容 的 视频 检索 的 第 一 步 ， 其 核心 处 理 是 识别 镜头 的 切换 ， 即 一 
个 镜头 到 另 一 个 镜头 的 转换 。 镜 头 的 转换 点 即 视频 序列 中 两 个 镜头 之 间 的 分 隔 和 衔接 点 。 采 用 
不 同 的 视频 剪辑 方法 ， 就 产生 了 不 同 的 镜头 衔接 方式 。 

一 般 说 来 ， 镜 头 之 间 的 转换 方式 可 以 分 为 两 大 类 : 突变 (Abrupt Transition) 和 渐变 ( Gradual 
Transition ) 。 突 变 也 称 切 变 (Cut Transition ) 。 

突变 是 指 从 一 个 镜头 直接 切换 到 下 一 个 镜头 ， 中 间 没 有 任何 的 视频 编辑 特效 ， 没 有 时 间 上 
的 过 渡 ， 常 在 两 帧 图 像 间 完 成 。 直 接 切 换 可 以 使 画面 的 情节 和 动作 发 生 直接 的 跳跃 ， 两 个 镜头 之 
间 没 有 交 释 部分， 不 存在 时 间或 空间 上 的 过 渡 过 程 。 对 于 这 种 转换 方式 ， 镜头 的 边界 较 容易 
检测 。 

渐变 则 是 从 一 个 镜头 缓慢 地 切换 到 男 一 个 镜头 ， 中 间 通 过 视频 编辑 特效 连接 在 一 起 ， 这 个 
过 程 一 般 会 持续 十 几 甚至 几 十 帧 。 由 于 渐变 在 编辑 过 程 中 加 入 了 一 些 空间 或 时 间 效 果 ， 因 此 渐 
变 的 特点 是 在 整个 切换 过 程 中 逐渐 完成 的 ， 镜 头 的 边界 不 再 明显 。 根 据 编辑 方式 的 不 同 ， 渐 变 可 
进一步 分 为 淡 入 (Fade-In)、 淡 出 (Fade-O0ut)、 合 化 (Dissolve) 和 划 变 (Wipe) 等 。 

1. 淡 入 /淡出 

淡 入 /淡出 是 指 图 像 间 的 颜色 和 亮度 等 视觉 特征 发 生 缓慢 的 变化 。 其 中 ， 淡 和 是 指 镜 头 的 前 
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(©) 数字 图 像 与 视频 处 


几 帧 从 单一 颜色 的 背景 中 渐渐 显示 出 来 ， 表 现 为 画面 逐渐 增强 ， 如 岁 10-8 所 示 。 淡 出 是 指 镜头 
的 后 几 帧 画面 逐渐 减弱 ， 最 后 隐 入 到 单一 颜色 的 背景 中 。 淡 入 和 淡出 常见 于 片段 的 开头 和 结尾 。 
































10-8” 淡 入 帧 序列 


2. 县 化 

又 化 是 镜头 切换 的 一 种 技巧 性 转 场 特 技 。 具 体 表现 为 前 一 个 镜头 中 的 画面 逐渐 淡出 的 同时 ， 
后 一 个 镜头 中 的 画面 随 之 逐渐 淡 入 ， 前 、 后 两 个 相 邻 的 镜头 有 相互 重合 的 部 分 ， 如 图 10-9 所 示 。 
笃 化 经 常用 于 表现 明显 的 空间 转换 和 时 间 过 渡 ， 强 调 前 、 后 片段 或 镜头 内 容 的 关联 性 和 自然 过 
渡 。 笃 化 有 时 也 称 作 “ 软 过 渡 ”， 因 为 当前 、 后 镜头 连接 不 畅 ， 或 镜头 质量 不 佳 时 ， 比 如 镜头 运 
动 速度 不 均 、 起 落 幅 不 稳 等 ， 都 可 以 借助 释 化 冲淡 这 些 缺 陷 影响 ， 同 时 和 到 化 也 避免 了 切换 镜头 的 
跳跃 。 











图 10-9 闭 化 帧 序列 


3. 划 变 

划 变 是 指 前 一 个 镜头 中 的 画面 逐渐 被 后 一 个 镜头 的 画面 覆盖 ， 表 现 为 从 画面 的 某 一 部 分 开 
始 ， 前 一 个 镜头 中 的 画面 被 后 一 个 镜头 的 画面 逐渐 覆盖 ， 最 后 完全 变 成 后 一 个 镜头 的 画面 。 根 据 
覆盖 的 方式 不 同 ， 可 分 为 多 种 不 同 的 划 变 类 型 。 
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量 于 内 容 的 图 像 和 视频 检索 


以 上 是 视频 节目 中 最 常见 的 也 是 镜头 检测 技术 中 研究 最 多 的 镜头 渐变 类 型 ， 除 此 之 外 ， 还 
有 滑动 (Slide) 、 上 拉 / 下 拉 (Pull up/ Pull down) 、 旋 转 (Spin) 等 。 随 着 视频 编辑 手段 和 编辑 
技术 的 进步 ， 新 的 更 为 复杂 的 镜头 检测 类 型 也 不 断 出 现 。 


10.3.6 镜头 边界 检测 


镜头 边界 检测 (Shot Boundary Detection) 是 将 一 个 视频 数据 中 的 镜头 边界 标记 出 来 。 镜 头 边 
界 检 测 也 被 称 作 镜头 检测 (Shot Detection ) 或 镜头 分 制 (Shot Segmentation ) 。 

在 基于 内 容 的 视频 检索 技术 中 ， 镜 头 分 割 的 优 劣 直接 影响 到 视频 更 高 一 级 结构 的 构造 ， 以 
及 视频 的 浏览 和 检索 ， 因 此 从 视频 流 中 分 割 出 镜头 这 一 步骤 是 至 关 重 要 的 。 
理想 的 镜头 边界 检测 是 将 视频 数据 按照 语义 分 割 的 过 程 ， 如 利用 人 有 眼 观察 可 以 精确 定位 到 
镜头 边界 。 但 是 由 于 现 有 的 算法 无 法 对 语义 信息 进行 精确 描述 ， 所 以 大 多 数 算法 利用 视频 内 容 
基本 特征 (如 颜色 、 形 状 、 纹 理 等 ) 的 差异 程度 来 分 割 视频 镜头 。 因 为 在 同一 镜 尖 内， 视频 内 
容 一 般 是 比较 相似 的 ， 而 在 两 个 镜头 切换 时 ， 视 频 内 容 会 发 生 较 大 的 变化 ， 镜 头 边 界 检测 的 基本 
思路 就 是 找到 视频 中 图 像 内 容 不 连贯 的 地 方 。 这 种 不 连贯 性 可 以 用 视频 内 容 的 特征 差异 一 一 帧 
间距 离 来 表示 。 因 此 ， 镜 头 边 界 检 测 的 基本 方法 是 计算 帧 间距 离 并 按 一 定 国 值 来 判定 镜头 边界 。 

对 于 切 变 ， 镜 头 切换 附近 的 帧 在 视觉 内 容 上 应 表现 出 极 明 显 的 变化 ， 基 于 这 点 得 出 的 一 个 
想法 就 是 设 定 某 一 闵 值 7.， 当 帧 间距 离 大 于 阔 值 7. 时 ， 则 判定 存在 镜头 突变 。 

然而 对 于 渐变 ， 视 频 内 容 是 平缓 变化 的 ， 而 不 是 急剧 变化 ， 因 此 帧 差 的 变化 也 是 平缓 的 ， 所 
以 需要 设置 另 一 个 较 低 的 阔 值 ， 这 样 就 形成 了 双 阔 值 检测 法 。 该 方法 设置 两 个 冰 值 7 和 7。 当 
帧 间距 离 大 于 7, 时 ， 存 在 镜头 突变 ， 当 帧 间距 离 小 于 7 而 大 于 7. 时 存在 镜头 渐变 。 当 后 续 帧 
的 帧 间距 离开 始 超 过 7, 时 ， 这 一 帧 称 为 镜头 渐变 的 起 始 帧 。 然 后 同时 计算 两 种 帧 差 : 一 种 帧 间 
距离 是 上 述 统称 的 连续 帧 的 帧 间距 离 ， 即 相 邻 两 帧 的 帧 间距 离 乙 (5， 5+1); 另 一 种 帧 间距 离 是 
相隔 帧 的 帧 间距 离 D,(k，k+71) ， 即 相隔 1 帧 的 帧 间距 离 。 当 镜头 渐变 的 起 始 帧 检测 出 后 ， 便 开 
台 计 算 D,(k,，k+7) ， 即 随 着 的 逐渐 增加 ， 也 同时 逐渐 增加 7。 显然， 相隔 帧 的 帧 间距 离 随 着 相 
隔 帧 数 7 的 增加 而 增加 ， 因 而 相隔 帧 的 帧 间距 离 是 一 个 累计 帧 间距 离 。 当 累计 帧 间距 离 计 超过 
7,， 而 连续 帧 的 帧 间距 离 低 于 7, 时 ， 这 一 帧 便 为 镜头 渐变 的 终止 帧 。 而 且 ， 上 述 两 种 帧 间距 离 
是 同时 计算 的 ， 在 相隔 帧 的 帧 间距 离开 始 累 计 后 ， 同 时 观察 连续 帧 的 帧 间距 离 D,(k,，k+1)， 如 
果 D,(k, k+1) 小 于 7。， 则 丢弃 该 潜在 的 起 始 巾 ,接着 重新 寻找 新 的 起 始 帧 。 

双 阔 值 检 测 法 可 以 同时 检测 突变 和 渐变 ， 其 主要 问题 在 于 靖 值 是 经 验 值 ， 对 于 不 同 的 视频 
序列 甚至 对 同一 个 视频 序列 的 不 同 段 ， 选 取 的 阔 值 大 小 是 不 同 的 ， 因 此 利用 经 验 值 的 双 阔 值 方 
法 不 适合 长 视频 序列 的 镜头 切换 检测 。 

目前 ， 镜 头 边界 检测 的 算法 主要 分 为 两 类 : 一 类 是 基于 像素 域 图 像 特 征 的 镜头 边界 检测 法 ， 
另 一 类 是 基于 压缩 域 编码 信息 的 镜头 边界 检测 法 。 所 谓 像素 域 ， 是 相对 于 变换 域 而 言 的 空间 /时 
间 域 ， 在 某 种 意义 上 来 说 ， 像 素 域 也 指 非 压缩 域 。 像 素 域 的 镜头 边界 检测 算法 是 在 解码 后 的 视频 
数据 上 进行 时 域 分 制 ， 通 过 计算 图 像 间 的 特征 差异 检测 镜头 边界 ， 这 种 方法 可 以 得 到 比较 高 的 
检测 精度 ， 但 是 特征 的 计算 量 比较 大 ， 其 中 最 典型 的 方法 有 模板 匹配 法 、 基 于 直方 图 法 、 基 于 边 
缘 轮 廓 法 等 。 基 于 压缩 域 的 镜头 边界 检测 算法 主要 针对 MPEG 编码 的 视频 ， 该 算法 原理 是 通过 
MPEG 视频 编码 中 的 DCT 系数 、DC 系数 或 运动 矢量 来 确定 镜头 边界 的 。 


10. 3.7 “关键 帧 的 提取 
对 视频 数据 的 组 织 结 构 分 层 和 如 何 简洁 地 表达 具有 语义 层次 的 单元 对 基于 内 容 的 视频 检索 
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是 很 重要 的 。 由 于 镜头 中 的 帧 图 像 数据 在 视觉 上 存在 相当 的 元 余 ， 在 实际 应 用 中 ， 用 户 浏览 一 个 
镜头 中 所 有 图 像 帧 是 非常 耗 时 的 ， 因 此 常用 关键 帧 技术 实现 快速 浏览 。 而 且 仅 用 一 个 镜头 代表 
场景 容易 丢失 其 他 镜头 的 信息 ， 所 以 对 每 一 镜头 可 以 提取 关键 帧 ( Key frame) 。 

关键 帧 有 时 也 称 为 代表 帧 ， 是 用 于 描述 一 个 镜头 的 关键 图 像 帧 ， 它 通常 会 反映 一 个 镜头 的 
主要 内 容 ， 用 它 作 为 视频 流 的 索引 ， 比 用 原始 的 视频 数据 要 有 效 得 多 ， 同 时 也 为 检索 和 浏览 视频 
提供 了 一 个 组 织 框架 。 由 于 一 般 情况 下 ， 一 个 镜头 的 持续 时 间 较 短 ， 而 且 镜 关内 的 视觉 特征 基本 
保持 不 变 ， 因 此 用 关键 帧 来 表示 一 个 镜头 更 有 意义 。 由 于 视频 数据 量 巨大 ， 在 存储 容量 有 限 的 情 
况 下 ， 仅 存储 镜头 的 关键 帧 ， 可 达到 数据 压缩 的 效果 。 其 次 ， 从 检索 机 人 制 考 虑 ， 用 关键 帧 来 代表 
镜头 ， 作 用 类 似 于 文本 检索 中 的 关键 词 ， 这 样 对 视频 镜头 可 用 图 像 检 索 技 术 进 行 处 理 ， 在 计算 镜 
头 相似 度 和 进行 场景 聚 类 时 ， 可 以 直接 利用 从 关键 帧 中 提取 出 的 颜色 、 纹 理 及 形状 等 特征 作为 
镜头 的 特征 。 由 此 可 见 ， 关键 帧 的 提取 无 论 是 在 视频 数据 存储 还 是 在 镜头 的 表达 方面 都 起 着 重 
要 的 作用 。 

关键 帧 提取 是 在 视频 分 割 为 镜头 的 基础 上 ， 分 析 镜 关中 图 像 帧 的 颜色 、 纹 理 等 特征 ， 根 据 各 
帧 之 间 的 相互 关系 ， 找 出 最 能 代表 镜头 内 容 的 图 像 帧 。 

1. 关键 帧 的 提取 原则 

在 提取 关键 帧 时 ， 一 般 采 用 保守 原则 ， 即 “ 宁 错 勿 少 ”， 同时， 在 代表 特征 不 具体 的 情况 
下 , 一 般 以 去 掉 重复 (或 见 余 ) 画面 为 原则 。 基 于 这 一 基本 原则 ， 不 同 的 提取 算法 可 以 选取 不 
同 的 原则 ， 建 立 适 合 自身 情况 的 判定 标准 ， 有 时 针对 不 同 的 视频 事件 ， 还 可 以 选择 不 同 的 判定 
标准 。 

关键 帧 的 提取 必须 保证 在 场景 变换 中 不 错过 镜头 ， 同 时 也 不 错过 场景 变换 ， 并 且 能 够 给 用 
户 提供 一 个 镜头 内 的 场景 运动 。 随 着 视频 内 容 的 增多 ， 关 键 帧 也 将 增多 ， 这 样 就 使 用 户 查 找 起 来 
非常 困难 。 在 基于 内 容 的 视频 检索 中 ， 用 户 可 能 选择 一 幅 关 键 帧 而 要 求 系统 返回 所 有 相似 的 关 
键 帧 ， 这 种 能 够 进行 相似 性 比较 的 关键 取决 于 关键 帧 的 表示 ， 颜 色 和 形状 等 特征 均 可 以 作为 关 
键 帧 的 表示 。 颜 色 是 关键 帧 提取 中 的 重要 特性 ， 因 为 关键 帧 往往 与 整个 镜头 有 相似 的 感知 特性 ， 
因此 关键 帧 的 颜色 特征 能 够 反映 整个 镜头 的 色彩 概况 。 同 时 ， 关 键 帧 中 目标 的 形状 也 是 关键 帧 
提取 中 的 主要 特征 ， 形 状 的 瞬时 变化 也 是 视频 浏览 中 理想 的 表示 机 制 ， 对 于 形状 可 用 矢量 形式 
描述 每 个 关键 帧 的 形状 变化 ， 通 过 计算 矢量 间 的 欧 拉 距离 测量 形状 的 相似 性 ， 另 外 还 可 以 用 一 
些 特征 混合 法 来 表示 关键 帧 。 

2. 基于 镜头 边界 的 方法 

在 这 种 方法 中 ， 把 一 段 视频 分 割 成 镜头 后 ， 将 每 个 镜头 的 第 一 帧 和 最 后 一 帧 作为 镜头 的 关 
键 帧 。 这 种 方法 的 假设 前 提 是 : 在 一 组 镜头 中 ， 相 邻 图 像 帧 之 间 的 特征 变化 很 少 ， 整 个 镜头 中 图 
像 帧 的 特征 变化 也 不 大 ， 因 此 选择 镜头 的 第 一 帧 和 最 后 一 帧 可 以 将 镜头 的 内 容 表 达 出 来 。 

该 方法 实现 起 来 较为 简单 且 快 速 ， 但 它 没 有 考虑 到 当前 镜头 视频 内 容 的 复杂 性 ， 并 且 限 制 
了 镜头 关键 帧 的 个 数 ， 使 视频 内 容 和 时 长 不 同 的 镜头 都 有 相同 数量 的 关键 帧 。 事 实 上 ， 上 述 的 假 
设 前 提 并 不 完全 合理 ， 第 一 帧 和 最 后 一 帧 往往 并 非 关 键 帧 ， 不 能 准确 代表 镜头 的 主要 内 容 。 

3. 基于 平均 值 的 方法 

基于 平均 值 的 方法 包括 两 种 情况 : 一 种 是 帧 平均 法 , 男 一 种 是 直方 图 平均 法 。 帧 平均 法 是 取 
一 个 镜头 中 所 有 帧 在 某 个 特定 位 置 上 的 像素 平均 值 ， 将 镜头 中 该 位 置 的 像素 值 最 接近 平均 值 的 
帧 作为 关键 帧 。 直 方刚 平 均 法 是 将 镜头 中 所 有 帧 的 统计 直方 图 取 平 均值 ， 然 后 选择 直方 图 与 该 
平均 直方 图 最 接近 的 帧 作为 关键 帧 。 这 两 种 方法 的 共同 优点 是 计算 比较 简单 ， 所 选取 的 关键 帧 
也 具有 平均 代表 意义 。 但 因为 是 从 一 个 镜头 中 选取 一 个 关键 帧 ， 因 此 无 法 描述 有 多 个 物体 运动 
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的 镜头 。 实 际 上 ， 每 个 镜头 选取 多 少 关键 帧 没有 严格 的 定义 ， 这 与 镜头 中 包含 的 内 容 有 很 大 的 关 
系 。 理 想 的 选取 结果 应 该 是 镜头 长 、 变 化 大 时 选取 的 关键 帧 多 一 点 ， 否 则 应 少 一 点 ， 甚 至 只 取 
帧 。 因 此 从 镜头 中 选取 固定 数量 的 关键 帧 的 方法 ， 并 非 为 十 分 可 行 的 方法 。 应 需要 用 适当 的 方 
法 ， 根 据 镜 头 的 内 容 ， 选 取 几 个 能 够 代表 镜头 意义 的 帧 作为 整个 镜头 的 关键 帧 。 

4. 基于 颜色 特征 的 方法 

在 基于 视频 图 像 颜色 特征 提取 关键 帧 方法 中 ， 将 镜头 的 当前 帧 图 像 与 最 后 一 个 判断 为 关键 
帧 的 图 像 进行 比较 ， 如 有 较 多 特征 发 生变 化 ， 则 将 当前 帧 作为 新 的 一 个 关键 帧 。 在 实际 中 ， 可 以 
先 将 视频 镜头 的 第 一 帧 作为 关键 帧 ， 然 后 比较 后 续 视 频 帧 与 关键 帧 的 图 像 特征 是 否 发 生 了 较 大 
变化 ， 逐 渐 得 到 后 续 关 键 帧 。 

按照 这 个 方法 ， 对 于 不 同 的 视频 镜头 ， 可 以 提取 出 不 同 数量 的 关键 帧 ， 而 且 每 个 关键 帧 之 间 
的 颜色 差异 较 大 。 但 这 种 方法 对 摄像 机 的 运动 (如 摄像 机 镜头 拉 伸 造成 焦距 的 变化 及 摇 镜 头 的 
平移 运动 ) 很 不 敏感 ， 无 法 量化 地 表示 运动 信息 的 变化 。 

5. 基于 内 容 分 析 的 方法 

在 拍摄 视频 影像 时 ， 由 于 场景 中 目标 的 运动 或 摄像 机 本 身 操作 (如 变焦 、 瓜 镜头 等 ) 的 影 
响 ， 一 个 镜头 仅 用 一 幅 关键 帧 不 能 很 好 地 代表 该 镜头 的 内 容 ， 常 需 用 几 幅 关键 帧 。 原 则 上 讲 ， 关 
键 帧 应 能 提供 一 个 镜头 的 全 面 概要 ， 或 者 说 应 能 提供 一 个 内 容 尽量 丰富 的 概要 。 从 这 个 角度 说 ， 
关键 帧 的 提取 可 以 看 作 一 个 优化 过 程 。 根 据 信息 论 的 观点 , 不同 〈 或 相关 性 较 小 ) 的 帧 图 像 比 
相同 (或 相关 性 较 大 ) 的 帧 图 像 携带 更 多 的 信息 量 。 所 以 当 需 要 提取 多 幅 关键 帧 时 ， 用 于 关键 
帧 提取 的 准则 主要 是 考虑 它们 之 间 的 不 相似 性 。 

在 基于 内 容 分 析 的 方法 中 ， 将 摄像 机 运动 造成 的 图 像 变 化 分 成 两 类 : 一 类 是 由 摄像 机 镜头 
焦距 变化 造成 的 ; 一 类 是 由 摄像 机 角度 变化 〈 摇 镜头 ) 造成 的 。 对 于 前 一 类 ， 至 少 选取 第 一 帧 
和 最 后 一 帧 作为 关键 巾 ， 一 个 表现 全 局 ， 男 一 个 表现 聚焦 的 局 部 ， 对 于 后 一 类 ， 如 当前 帧 与 上 一 
关键 帧 交 释 小 于 30% ， 则 选 其 为 关键 帧 。 

这 种 方法 可 以 根据 镜头 内 容 的 变化 程度 选择 相应 数目 的 关键 帧 ， 但 是 所 选取 的 帧 不 一 定 具 
有 代表 意义 ， 而 且 在 有 镜头 运动 时 ， 容 易 选 取 过 多 的 关键 帧 。 


10.3.8 镜头 聚 类 (场景 检测 ) 


虽然 镜头 分 割 可 将 视频 分 割 成 一 系列 镜头 ,但 是 镜头 分 割 通常 基于 视频 低层 特征 进行 ， 视 

频 的 语 看 义 信息 没有 被 较 好 利用 。 镜 头 主 要 还 是 一 个 物理 层次 的 单元 ,没有 将 视频 的 逻辑 关系 描 

述 出 来 ， 还 不 足以 描述 有 语义 意义 的 事件 或 活动 。 人 们 对 一 段 视频 内 容 的 理解 很 大 程度 上 并 不 
是 建立 在 镜头 层次 上 的 ， 而 是 建立 在 场景 (Scene) 层次 上 的 。 由 于 拍摄 设备 、 非 线性 剪辑 等 现 
代 影 视 技术 的 发 展 ， 场 景 已 不 再 局 限于 同一 地 点 拍摄 的 一 组 镜头 ， 只 要 这 组 镜头 具有 相同 的 语 
义 、 表 达 同 样 的 主题 ， 就 可 以 作为 一 个 场景 。 例 如 ， 在 对 话 情 景 中 ， 镜 头 在 对 话 人 之 间 来 回 移 
动 ; 在 打斗 情景 中 ， 镜 头 在 前 后 两 人 之 间 来 回 交 错 。 有 些 文 献 也 将 场景 称 作 视频 片段 ( Video 
Clip) 、 情 节 (Episode) 或 故事 单元 (Story Unit) 等 。 场 景 反映 的 是 视频 的 高 层 语义 ， 它 更 符合 
人 类 的 思维 模式 ， 是 建立 视频 索引 的 最 佳 层次 。 

从 每 一 个 镜头 中 通常 可 以 提取 出 一 个 或 多 个 关键 帧 ， 在 一 个 普通 的 故事 片 中 ， 大 约 有 600 ~ 
1500 个 镜头 ， 如 果 从 每 个 镜头 中 提取 一 个 关键 帧 ， 对 于 一 个 故事 片 则 会 有 600 ~ 1500 个 关键 帧 ， 
如 果 镜 头 内 有 物体 运动 或 摄像 机 运动 ， 则 代表 整个 故事 片 的 关键 帧 还 会 更 多 ， 这 样 上 千 帧 图 像 
对 于 视频 检索 显得 过 多 ， 为 了 更 抽象 地 表达 视频 ， 同 时 将 视频 内 容 进一步 加 以 组 织 ， 需 要 将 镜头 
聚 类 为 场景 ， 在 镜头 边界 检测 的 基础 上 构造 更 高 层次 的 内 容 相 关 的 镜头 集合 ， 以 描述 视频 节目 
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中 有 语义 的 事件 或 活动 。 由 于 视频 中 同一 场景 的 镜头 在 时 间 上 不 一 定 连续 ， 可 能 分 布 在 视频 中 
的 多 个 位 置 ， 因 此 ， 经 常 采用 对 视频 中 的 镜头 进行 聚 类 的 方法 来 分 割 场景 。 这 个 过 程 就 称 为 镜头 
聚 类 ， 有 时 也 称 为 场景 检测 ( Scene Detection) 或 逻辑 故事 单元 分 割 (Logic Story Unit Segmenta- 
tion ) 。 

镜头 聚 类 一 般 基 于 关键 帧 进行 ， 提 取 关 键 帧 的 特征 ， 并 把 关键 帧 特征 用 对 应 的 特征 空间 点 
表示 ， 通 过 将 特征 空间 的 点 聚集 成 复 ， 然 后 得 到 镜头 聚 类 的 结果 。 介 绍 镜头 聚 类 的 文献 很 多 ， 这 
里 就 不 一 一 介绍 了 。 






































10.4 人 小结 


随 着 计算 机 技术 和 Intemet 的 飞速 发 展 ， 包 括 图 像 在 内 的 各 种 多 媒体 数据 的 数量 正 以 惊人 的 
速度 增长 ， 人 们 面临 的 问题 不 再 是 缺少 多 媒体 内 容 ， 而 是 如 何在 浩如烟海 的 多 媒体 世界 中 有 效 
地 检索 到 自己 所 需要 的 信息 。 

基于 内 容 的 检索 是 利用 媒体 对 象 的 内 容 及 上 下 文 语 义 进行 检索 ， 如 图 像 中 的 颜色 、 纹 理 、 形 
状 ， 视 频 中 的 镜头 、 场 景 、 镜 头 的 运动 等 。 基 于 内 容 的 检索 突破 了 传统 的 基于 文本 检索 技术 的 局 
限 ， 直 接 对 图 像 、 视 频 内 容 进行 分 析 ， 抽 取 特 征 和 语义 ， 利 用 这 些 内 容 特征 建立 索引 并 进行 检 
索 。 本 章 主要 介绍 了 基于 内 容 检索 系统 的 一 般 结构 、 检 索 过 程 及 特点 ， 基 于 内 容 的 图 像 、 视 频 检 
索 的 一 般 方法 及 发 展 方向 。 





























10.5 习题 


1. 什么 是 基于 内 容 的 检索 ?“ 内 容 ” 的 含义 是 什么 ? 
2. 请 解释 查询 、 索 引 、 检 索 、 搜 索 这 几 个 术语 的 概念 。 
3 


. 简 述 基于 内 容 检索 系统 的 一 般 结 构 、 检 索 过 程 及 特点 。 
4. 在 基于 内 容 检索 系统 中 为 什么 要 采用 相似 性 查询 ?精确 性 查询 能 否 做 到 ? 什么 样 的 媒体 


可 以 做 到 精确 查询 ? 
5. 图 像 的 特征 有 哪些 ? 请 比较 颜色 和 矩 、 颜 色 直 方 图 、 颜 色 集 在 描述 颜色 特征 上 的 异同 点 。 
6. 常见 的 基于 内 容 的 图 像 检 索 方法 有 哪些 ? 
7. 请 解释 帧 、 关 键 帧 、 镜 头 、 场 景 的 概念 。 
8. 基于 内 容 的 视频 检索 涉及 哪些 关键 技术 ? 
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第 11 章 图 像 识 别 


本 章 学 习 目 标 : 
。 掌握 图 像 识别 系统 的 框架 结构 ， 熟 悉 图 像 获取 、 预 处 理 、 特 征 提取 以 及 分 类 器 等 各 个 模块 
的 作用 。 


e 了 解 经 验 风 险 最 小 化 和 结构 风险 最 小 化 的 含义 以 及 它们 之 间 的 区 别 ， 掌 握 支 持 向 量 机 
(SVM) 分 类 方法 。 
。 掌握 人 工 神经 元 模型 ， 熟 悉 常 见 的 人 工 神 经 网 络 ， 了 解 深度 学 习 的 概念 。 


11.1 图 像 识别 概述 





自然 界 中 存在 各 种 各 样 的 物体 ， 即 便 在 一 个 复杂 的 场景 中 ， 人 类 也 能 够 较 轻 松 地 识别 出 这 
些 物 体 。 图 像 识 别 系统 就 是 想 让 计算 机 也 能 够 像 人 一 样 ， 识 别 出 场 景 中 感 兴趣 的 目标 。 设 计 一 个 
图 像 识 别 系 统 ， 通 党 要 涉及 图 像 获取 、 预 处 理 、 特 征 提 取 、 分 类 决策 等 模块 。 传 统 的 图 像 识别 系 
统 的 基本 构成 如 图 11-1 所 示 。 


rr Er 


图 11-1 传统 的 图 像 识 别 系 统 的 基本 构成 





(1) 图 像 获取 

图 像 获取 是 指 通 过 光学 摄像 机 、 红 外 摄像 机 或 激光 、 超 声波 、 雷 达 等 对 现实 世界 进行 传 感 ， 
使 计算 机 得 到 与 现实 世界 相对 应 的 二 维 或 高 维 图 像 。 这 些 图 像 往 往 表示 成 数字 形式 ， 以 方便 后 
续 模块 的 处 理 。 

(2) 预 处 理 

预 处 理 的 目的 是 去 除 噪声 ， 加 强 有 用 人 信息， 剔除 干扰 信号 ， 并 对 输入 测量 仪器 或 其 他 因素 所 
造成 的 退化 现象 进行 复原 。 涉 及 的 原理 包括 图 像 平滑、 增强 、 复 原 、 变 换 等 技术 。 通 过 预 处 理 
后 ， 为 特征 的 正确 、 方 便 和 完整 获取 提供 可 能 。 图 像 预 处 理 属于 底层 的 操作 。 

(3) 特征 提取 

由 图 像 所 获得 的 数据 量 是 相当 大 的 。 为 了 有 效 地 实现 分 类 识别 ， 就 要 对 原始 数据 进行 变换 ， 
得 到 最 能 反映 分 类 的 本 质 特 征 。 通 常 ， 人 们 把 原始 数据 所 在 的 空间 称 为 测量 空间 ， 把 分 类 识别 赖 
以 进行 的 空间 称 为 特征 空间 。 通 过 变换 ， 可 把 在 维 数 较 高 的 测量 空间 中 表示 的 模式 变 为 在 维 数 
较 低 的 特征 空间 中 表示 的 模式 。 在 特征 空间 中 ， 一 个 模式 通常 也 叫 作 一 个 样本 ， 它 往往 表示 为 一 
个 向 量 ， 即 特征 空间 中 的 一 个 点 。 

(4) 分 类 决策 

分 类 决策 就 是 在 特征 空间 中 ， 利 用 分 类 器 把 待 识 别 对 象 判 决 为 某 一 个 类 别 。 分 类 方法 包括 
基于 模板 、 基 于 统计 理论 、 基 于 神经 网 络 和 基于 聚 类 等 多 种 。 确 定 分 类 方法 后 ， 往 往 需 要 对 这 些 
方法 中 涉及 的 参数 进行 设置 。 这 个 过 程 称 为 训练 或 者 学 习 。 因 此 ， 需 要 输入 训练 样本 ， 这 些 样本 
是 一 些 已 经 正确 标注 类 别 的 样本 。 训 练 样本 必须 具有 广泛 的 代表 性 。 通 过 训练 样本 来 训练 分 类 
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器 ， 使 得 根据 这 些 参数 来 进行 分 类 决策 时 ， 造 成 的 错误 识别 率 最 小 或 引起 的 损失 最 小 。 训 练 完成 
后 ,分 类 器 就 可 以 对 后 续 输入 的 待 识别 对 象 进行 分 类 。 

从 上 述 构成 可 以 看 出 ,传统 的 图 像 识别 方法 把 特征 提取 和 分 类 器 设计 分 开 ， 在 应 用 时 再 将 
它们 合 在 一 起 。 比 如 如 果 输 入 是 某 种 动物 ( 如 猫 ) 的 一 系列 训练 图 像 ， 首 先 要 对 这 些 图 像 的 特 
征 进行 提取 ， 这 些 特征 可 能 包括 纹理 特征 、 形 状 特征 、 颜 色 特 征 以 及 尺度 不 变 特征 变换 (Scale- 
Invariant Feature Transform，SIFT) 算 子 、 方 向 梯度 直方 图 (Histogram of Oriented Gradient ，HOG ) 
算 子 等 ， 然 后 把 表达 出 来 的 特征 送 到 学 习 算 法 中 进行 训练 得 到 分 类 器 。 

这 种 特征 和 特定 的 分 类 器 组 合 来 进行 识别 取得 了 一 些 成 功 的 例子 ， 比 如 指纹 识别 算法 ， 它 
在 指纹 的 图 案 上 面 去 寻找 一 些 关 键 点 ， 寻 找 具 有 特殊 几何 特征 的 点 ， 然 后 把 两 个 指纹 的 关键 点 
进行 比 对 ， 判 断 是 否 匹 配 。 再 如 2001 年 基于 Haar 的 人 脸 检 测算 法 ， 在 当时 的 硬件 条 件 下 已 经 能 
够 达到 实时 人 脸 检测 ， 现 在 手机 相机 里 的 人 脸 检 测 ， 多 数 都 是 基于 它 或 者 它 的 变种 。 包 括 最 近 的 
基于 HOG 特征 的 物体 检测 ， 它 和 支持 向 量 机 (Support Vector Machine, SVM) 组 合 起 来 的 就 是 著 
名 的 可 变形 部 件 模型 (Deformable Part Model，DPM) 算法 。 

从 这 些 例子 可 以 看 出 ,传统 的 识别 方法 需要 手工 设计 和 提取 特征 ， 这 需要 大 量 的 经 验 ， 需 要 
对 这 个 领域 和 数据 特别 了 解 ， 然 后 设计 出 来 的 特征 还 需要 大 量 的 调试 工作 。 另 一 个 难点 是 ， 单 有 
这 些 手 工 设计 的 特征 还 不 够 ， 还 要 有 一 个 比较 合适 的 分 类 需 算 法 。 只 有 特征 和 分 类 需 是 有 效 的 ， 
同时 协调 一 致 工作 ， 才 能 够 使 得 系统 识别 达到 最 优 。 

如 果 不 手 动 设计 特征 ， 不 挑选 分 类 器 ， 有 没有 别 的 方案 呢 ? 能 不 能 同时 学 习 特 征 和 分 类 器 ? 
在 基于 深度 学 习 的 识别 系统 中 ， 只 需要 将 大 量 需 要 训练 的 图 像 以 及 这 些 图 像 的 正 负 样本 类 型 输 
和 系统， 系统 自动 完成 特征 提取 和 分 类 器 的 学 习 ， 然 后 将 待 识 别 图 像 输入 系统 ， 系 统 将 直接 输出 
识别 结果 。 基 于 深度 学 习 的 图 像 识 别 系 统 的 基本 构成 如 图 11-2 所 示 。 


深度 神经 


图 11-2 基于 深度 学 习 的 图 像 识 别 系 统 的 基本 构成 


像 己 视频 处 理 



































































































































11.2 统计 学 习 方 法 


11.2.1 经 验 风 险 最 小 化 


假设 有 一 个 学 习 系 统 ， 输 入 为 x， 输 出 为 y， 变 量 x 和 y 之 间 存 在 的 未 知 依赖 关系 用 联合 概 
率 F(x, y) 来 描述 ， 训 练 集 T= | (x ,yi ) ,x,y) (zy 中 有 NN 个 样本 ， 机 器 学 习 的 目 
的 就 是 依据 这 WN 个 训练 样本 ,求解 一 个 最 优 的 函数 y =f(x，0)， 使 得 函数 对 输入 x 的 估计 yy' 与 
实际 输出 y 之 间 期 望 风险 R(0) 最 小 ，R(0) 的 数学 表达 式 为 


RCO) = L(y, f(x,0)) dF(x,y) (11-1) 


式 中 ,0 为 函数 A(x) 的 待定 参数 ; L(y, f(x,，0)) 为 用 f(x,，0) 对 y 进行 预测 的 损失 函数 。 常 
见 的 损失 函数 有 如 下 几 类 。 
(1) 0-1 损失 函数 


























代 y=f(x,0) 


(11-2) 
1, yzf(x,0) 


L(y, f(x,0)) = 
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(2) 平方 损失 函数 


L(y, f(x,0)) = (7 一 态 z,0)) (11-3) 
(3) 绝对 损失 函数 

L(y, f(x,0)) =1y -f(x,0)1 (11-4) 
(4) 对 数 损失 函数 

L(y, f(x,0)) = -Inp(x,0) (11-5) 











从 式 (11-1) 中 可 以 看 出 ， 准 确 计算 期 望 风 险 R(0) ， 需 要 已 知 联合 概率 F(x, y) 。 但 在 实际 
中 ， 往 往 无 法 准确 获取 。 唯 一 能 够 利用 的 就 只 有 给 定 的 N 个 训练 样本 。 而 机 需 学 习 的 目的 又 必 
须要 求 使 得 期 望 风险 最 小 化 ， 从 而 得 到 需要 的 目标 函数 。 不 难 想象 ， 可 以 利用 给 定 的 样本 集 上 的 
平均 损失 最 小 化 来 代替 无 法 求 得 的 期 望 风 险 最 小 化 。 利 用 已 知 的 经 验 数 据 (训练 样本 ) 来 计算 
得 到 的 误差 ， 被 称 之 为 经 验 风 险 ， 即 


R,,(0) = HY L(y, f(x,0)) (11-6) 


式 中 ，R,,,(0) 为 经 验 风险 ,是 用 NN 个 训练 样本 来 估计 期 望 风险 R(0)。 使 用 对 参数 求 经 验 风险 
来 逐渐 允 近 理想 的 期 望 风险 的 最 小 值 ， 就 是 经 验 风 险 最 小 化 ( Empirical Risk Minimization ，ERM ) 
原则 。 

经 验 风 险 最 小 化 的 策略 认为 ， 经 验 风险 最 小 的 模型 是 最 优 的 模型 。 当 样本 容量 足够 大 时 ， 经 
验 风险 最 小 化 能 保证 有 很 好 的 学 习 效 果 ， 在 现实 中 被 广泛 采用 。 例 如 ， 极 大 似 然 估计 (Maximum 
Likelihood Estimation，MLE) 就 是 经 验 风险 最 小 化 的 一 个 例子 。 当 模型 是 条 件 概率 分 布 ， 损 失 活 
数 是 对 数 损失 函数 时 ， 经 验 风 险 最 小 化 就 等 于 极 大 似 然 估 计 。 
经 验 风 险 最 小 化 能 适应 样本 足够 的 情况 。 当 样本 数目 N 一 % 时 ， 经 验 风险 趋 近 于 期 望 风 险 ， 
但 是 使 得 R (9) 最 小 的 取 值 9 并 不 能 保证 在 该 点 上 的 期 望 风险 R(0) 也 是 最 小 值 。 统 计 学 习 
的 一 致 性 条 件 从 理论 上 来 说 明了 这 个 问题 。 所 谓 的 学 习 一 致 性 是 指 当 训练 样本 趋向 无 穷 时 ， 经 
验 风险 的 最 优 值 收敛 到 期 望 风险 的 最 优 值 ， 即 


































































































limR(O IN) =R(0,) (11-7) 
limR,, (0° IN) =R(0,) (11-8) 


式 中 ，R(0,) 为 期 望 风 险 的 下 确 界 ; R(0” | N) 为 NN 个 样本 时 的 期 望 风 险 最 小 值 ; R,, (90 1 和) 为 N 
个 样本 时 的 经 验 风险 最 小 值 。 
对 于 有 界 的 损失 函数 ， 经 验 风险 最 小 化 学 习 一 致 的 充分 必要 条 件 是 经 验 风 险 在 如 下 意义 上 
一 致 地 收敛 于 期 望 风险 ， 即 
limP[ sup( R(O) 一 尺 








,(0)) >e]=0, Ve>0 (11-9) 


式 中 ，sup 表示 上 确 界 。 
11.2.2 结构 风险 最 小 化 


当 样 本 容量 很 小 时 ， 一味 追求 经 验 风 险 最 小 化 ， 会 产生 过 拟 合 现象 ， 导 致 在 测试 集 分 类 效果 
很 差 。 而 结构 风险 最 小 化 (Structural Risk Minimization，SRM) 是 为 了 防止 过 拟 合 而 提出 的 策略 。 
结构 风险 最 小 化 等 价 于 正则 化 。 结 构 风 险 在 经 验 风 险 的 基础 上 加 上 表示 模型 复杂 度 的 正则 化 项 。 
在 假设 空间 、 损 失 函 数 以 及 训练 集 确定 的 情况 下 ,结构 风险 的 定义 为 


Rl0) = HD LO, fi,0)) + Mx,0)) (11-10) 
式 中 ，J(J) 为 模型 的 复杂 度 ， 是 定义 在 假设 空间 上 的 汉 函 。 模 型 / 越 复杂 ， 复 杂 度 J(/) 就 越 
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大 。 也 就 是 说 ,复杂 度 表示 了 对 复杂 模型 的 惩罚 。 结 构 风 险 小 的 模型 往往 对 训练 数据 和 未 知 的 测 
试 数据 都 有 较 好 的 预测 。 比 如 ， 贝 叶 斯 估计 中 的 最 大 后 验 概率 ( Maximum A- Posterior ，MAP) 估计 
就 是 结构 风险 最 小 化 的 例子 。 当 模型 是 条 件 概率 分 布 ， 损 失 函 数 是 对 数 损失 函数 ， 模 型 复杂 度 由 模 
型 的 先 验 概率 表示 时 ， 结 构 风 险 最 小 化 就 等 价 于 最 大 后 验 概率 估计 。 

结构 风险 最 小 化 的 策略 认为 结构 风险 最 小 的 模型 是 最 优 的 模型 。 


11.2.3 支持 向 量 机 


支持 向 量 机 (Support Vector Machine，SVM) 是 Vapnik 和 Corinna Cortes 等 人 在 1995 年 首先 
提出 的 一 个 概念 ， 它 是 一 种 分 类 的 机 制 ， 可 以 解 
决 非 线性 的 分 类 和 小 样本 的 分 类 问题 ， 并 且 它 在 中 ER 
机 器 学 习 领 域 的 其 他 应 用 中 也 表现 良好 。SVM 分 RN “入 hl 
NC 
dX 


类 器 的 主要 思想 如 图 11-3 所 示 。 > 

图 中 “ +” 表示 正 样本 ,，“ - ”表示 负 样 本 ， NN 
现在 需要 找到 一 条 分 类 线 ， 能 够 把 这 两 类 样本 隔 “| ， + ey 
测 / ~ 


ee 人 Ho: mwTeHp=-l 
开 。 但 是 发 现 ， 分 类 线 的 选择 多 种 多 样 , 因此 下 | ,+ AAA - - 

面 定义 最 优 分 类 线 五 可 以 使 得 分 类 间隔 最 远 。 2 

分 类 间隔 指 的 是 图 中 友和 友之 间 的 距离 。 有 和 厂 

分 别 是 穿 过 正 负 样本 离 五 最 近 的 平行 线 。 把 二 维 0 一 一 一 一 一 一 一 一 一 一 一 
的 概念 扩展 到 超 平面 上 ， 最 优 分 类 线 也 就 成 了 最 i 

优 超 平面 。 定 义 超 平面 的 公式 为 
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flx) =wx+b (11-11) 
式 中 ，w 表示 权重 向 量 ， 为 法 向 量 (类 似 于 二 维 平面 中 的 斜率 ) ; b 表示 偏 置 量 ， 决 定 了 超 平面 
和 原点 之 间 的 距离 (类似 二 维 平面 中 直线 和 yy 轴 的 交点 ) 。 最 优 超 平面 的 表示 形式 多 种 多 样 ， 通 
常用 式 (11-12) 来 表达 最 优 超 平面 















































Iwx+bl =0 (11-12) 
假设 x 是 距离 超 平面 最 近 的 一 些 点 ， 也 就 是 图 11-3 中 带 有 圈 的 点 ， 这 些 点 满足 


(wx,+06)= +1, y= +1 

















T (11-13) 
(wx,+6)= -1, y,= -1 
即 y,(w'x;+5) =1， 则 称 这 些 点 为 支持 向 量 (Support Vector) 。 
从 几何 角度 上 来 看 ， 样 本 空间 中 任意 一 个 点 x 到 超 平面 (w, 5) 的 距离 d 为 
Iw x +b| 
d= Tw (11-14) 
定义 y 为 间隔 (Margin) ， 其 取 值 为 最 近 距 离 的 2 倍 ， 即 
2 
= 一 一 -一 11-15 
Y= Tw Wo, 








为 了 找到 具有 “最 大 间隔 ” (Maximum Margin ) 的 划分 超 平面 ， 也 就 是 要 找到 约束 参数 w 和 
5b， 使 得 y 最 大 ， 即 
Me ty(w +D) 1 i=1,2,.…,m (11-16) 
式 中 ，y, 表示 样本 的 类 别 标记 。 
因为 最 大 化 间隔 ， 仅 需要 最 大 化 we ， 这 等 价 于 最 小 化 | w 省。 因此 ， 上 述 问 题 可 以 习 
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写 为 
min | wl? sty (wx, +h) i=1,2,.…,m (11-17) 
这 就 是 SVM 的 基本 型 。 这 是 一 个 凸 二 次 规划 问题 。 
凸 优化 问题 是 指 如 下 的 约束 最 优化 问题 
min f( w) 
s.t.g,(w) <0 i=1,2,.… ,hk (11-18) 
h(w) =0 i=1,2,.…,l 
式 中 ,目标 函数 Jw) 和 约束 函数 g,(w) 都 是 R*Y 上 的 连续 可 微 的 凸 函 数 ， 约 束 函 数 凡 (mw) 
R" 上 的 仿 射 函数 。 当 目标 函数 J(w) 是 二 次 函数 ， 且 约束 函数 g,(w) 是 仿 射 函数 时 ， 上 述 问题 
就 称 为 凸 二 次 规划 问题 。 
【 例 11-1】 已 知 某 训练 数据 集 正 样本 为 z = (4, 4) 、x, = (5，8) ， 负 样本 为 z =(1，1) ， 试 写 
出 SVM 优化 问题 的 表达 式 。 
解 : 根据 式 (11-17) ， 得 
































冰 部 








main 村 Ci +) 
s.t.4w, +4w, +b 三 1 
Sw +8w, +0 三 1 
一 Wi —w, -b 三 1 
将 上 述 的 驯 二 次 规划 问题 转 为 求 其 对 偶 问 题 ， 因 为 这 样 可 以 更 容易 求解 出 结果 。 对 它 的 每 
条 约束 添加 拉 格 朗 日 乘 子 a, 二 0， 可 得 该 问题 的 拉 格 朗 日 函数 ， 即 


m 











Lee) = Tw) + Doll -yw +b)) G1-19) 


式 中 ， Q=(Q ,0 ," ,0,)o 
根据 拉 格 朗 日 对 偶 性 ， 原 始 问题 的 对 偶 问 题 是 极 大 极 小 问题 ， 即 
maxmin L(w,b,a) 
所 以 , 先 求 L(w,b5,a) 对 w, 5 的 极 小 ， 再 求 对 a 的 极 大 。 
为 了 计算 min L(w,b,a) ， 对 LC(w,b,a) 分 别 求 对 w 和 4 的 偏 导 ， 并 邻 导 数 为 零 ， 可 得 








=w— Dayx,=0 (11-20) 
oL(w,b,a) _ Yi (11-21) 
所 得 结果 代入 上 述 问 题 ， 可 得 其 对 偶 问 题 (Dual Problem) ， 即 


m | 必 忆 
T 
max > ai 一 py > aay yan, 
< i=1 i=1 j=!1 














sb Da =0 Wr 
a 0 =1,2,.,m 
解 出 a 后， 就 可 以 求 取出 最 优 超 平面 的 权重 向 量 w 和 偏 置 量 5， 此 时 分 类 决策 函数 可 表示 为 
Wy = en el > a (11-23) 
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SVM 是 一 个 线性 分 类 器 ， 但 是 它 也 可 以 把 特征 分 类 运用 到 非 线性 分 类 中 。 使 用 的 方法 是 内 
核 映 射 的 方法 。 这 种 方法 把 非 线性 不 可 区 分 的 数据 转换 到 一 个 高 维 空间 中 ， 使 得 在 这 个 高 维 空 
间 实 现 分 类 ， 如 图 11-4 所 示 。 


像 与 视频 处 理 























0) 





样本 空间 





特征 空间 





图 11-4 从 样本 空间 到 特征 空间 的 映射 











令 四 是 从 原始 样本 空间 和 到 特征 空间 的 映射 ， p(x) 表示 将 x 映射 后 的 特征 向 量 ， 于 是 在 
特征 空间 进行 划分 超 平 面 可 以 表示 为 























f(x) =w h(x) +0 (11-24) 
可 得 类 似 的 优化 


min 广 wl sty(w hx) +0)=1 i=1,2,.…,m (11-25) 








其 对 偶 问题 为 


max ai -村 Daegb le) "bs) 


< i=1 j=1 


st 2 
=1 


(11-26) 


只 
| 





上 述 问题 的 求解 需要 在 特征 空间 中 计算 $ (x,)'$(x,)， 也 就 是 内 积 <p(x;),， g(x,) > 。 由 
于 特征 空间 维 数 可 能 很 高 ， 其 至 可 能 无 穷 维 ， 在 特征 空间 直接 计算 内 积 比较 困难 。 因 此 ， 构 造 函 
数 K(x,, x;) ， 使 得 对 所 有 的 x, 和 x e XX， ee s 间 XX 中 通过 核 函 数 计算 的 结果 等 于 它 
们 在 特征 空间 对 应 的 特征 癌 量 的 内 积 ， 时 


K(x x)) = <$(x) ,bx) > =$ (x,)" $x,) (11-27) 
式 中 ，< 中 (x%) ， 四 (%%) > 为 世 、 关 映射 到 特征 空间 上 的 内 积 。 把 这 样 的 函数 称 为 核 函 数 (Kemel 


Function ) 。 

目前 常用 的 核 函 数 主要 有 线性 核 函 数 、 多 项 式 核 函 数 、 径 向 基 核 函数 、 拉 普 拉 斯 核 函数 和 
Sigmoid 核 函 数 等 。 

(1) 线性 核 函 数 







































































K(xi,X)) = <xX, ,xX > (11-28) 
(2) 多 项 式 核 函 数 
K(xi,x) =[ < > +1]? (11-29 ) 





式 中 ,4 是 多 项 式 次 数 。 
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(3) 径 向 基 











函数 (Radial Basis Function, RBF) 





no” 


Ix,—x,|’ 
eens es a) 


式 中 ，o 为 高 斯 函数 的 宽度 。 
(4) 拉 普 拉 斯 核 函 数 





式 中 ，c >0。 





Ix, —x,| 
I 


(on 


(5) Sigmoid 核 浮 数 


K(x,,x,) =tanh(B(Xx,,x,) +0) 














式 中 ，tanh 为 双 


曲 正切 函数 , 6> 0，0< 0。 


11.3 ”人工 神经 网 络 


人 工 神经 网 络 ( Artificial Neural Network ，ANN) 是 以 数学 模型 模拟 神经 元 活动 ， 基 于 模仿 大 


脑 神经 网 络 结构 和 功能 而 建立 的 一 种 信息 处 到 





























(11-30) 


(11-31) 


(11-32) 





系统 ， 是 对 人 脑 组 织 结构 和 运行 机 制 的 某 种 抽象 、 


简化 和 模拟 ， 可 用 来 描述 认 知 、 决 策 及 控制 等 智能 行为 ， 在 目标 检测 、 物 体 分 类 以 及 识别 等 领域 


取得 了 成 功 。 























11.3.1 人 工 神经 元 模型 


人 脑 由 众多 神经 元 (Neuron) 组 成 ， 其 中 的 每 个 神经 元 又 与 其 他 若干 个 神经 元 相连 接 ， 如 此 
构成 一 个 庞大 而 复杂 的 神经 元 网 络 。 
神经 元 是 大 脑 处 理 信息 的 基本 单元 ， 它 是 以 细胞 体 为 主体 ， 由 许多 向 周围 延伸 的 不 规则 
树 校 状 纤维 构成 的 神经 细胞 ， 其 形状 很 像 一 棵 相 树 的 棱 干 。 它 主要 由 细胞 体 、 树 突 、 轴 突 和 
又 称 “ 神 经 键 ”") 组 成 。 如 果 某 神经 元 的 电位 超过 了 一 个 “ 靖 值 ”， 它 就 会 被 


突 触 〈Synapse， 


激活 〈 即 “兴奋 ") ， 然 后 向 其 他 神经 元 发 送 
一 个 神经 元 有 许多 输入 端 〈 当 然 也 有 较 少 f 



































化 学 物质 ， 从 而 改变 这 些 神 经 元 内 的 电位 。 
的 输入 ， 完 成 中 继 放大 的 作用 ) ， 即 突 触 ， 每 个 突 触 





的 大 小 可 以 是 不 同 的 ， 也 就 是 它们 由 接受 输入 脉冲 到 刺激 本 神经 元 的 细胞 膜 的 强度 是 不 一 样 的 。 


为 了 模拟 人 脑 活 动 ， 人 们 设计 了 人 工 神 经 网 络 。 它 上 





神经 元 有 如 下 三 个 基本 要 素 。 


1) 连接 强度 。 用 来 与 其 他 神经 元 的 连接 ， 模 拟 生 物 神经 元 的 突 触 。 





2) 求 和 单元 。 计 算 当 前 神经 元 的 所 有 输入 信号 的 加 权 和 。 
3) 激励 函数 (传递 函数 ) 。 用 来 将 加 权 信和 号 映射 为 输出 信号。 
1943 年 ，Walter Pitts 将 生物 神经 元 的 情形 
































的 输入 ; 权重 值 


抽象 为 如 图 11-5 所 示 的 数学 结构 模型 ， 并 用 这 
种 模型 表示 人 工 神 经 元 。 
其 中 ,x,(i=1,2,…,n) 表示 来 自 第 i 个 神经 元 








wl(i =1,2,.…n) 表示 第 i 个 神 








经 元 的 连接 强度 


整合 量 ; f 为 神经 元 的 激活 函数 ; y 是 整个 神经 
元 的 最 终 输出 ， 输 出 结果 为 





























图 11-5 ” 人工 神经 元 结构 模型 


日 人 工 神 经 元 互相 连接 而 成 ， 每 一 个 人 工 
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uw= WX= ne 
(11-33) 
y=/(%) =/( Dus + 


人 工 神经 元 模拟 生物 神经 元 的 过 程 中 ， 对 来 自 输入 单元 的 整合 量 通过 激活 函数 进行 处 理 ， 
在 这 期 间 ， 激 活 函数 对 最 终 的 输出 具有 非常 重要 的 作用 。 因 为 实际 的 神经 元 的 输出 对 输入 而 言 
是 “ 非 线性 ”的 ， 激 活 函 数 / 将 完成 这 样 的 非 线 性 映射 ， 它 将 空间 中 样本 的 复杂 性 通过 层 和 至 的 网 
络 加 以 简化 ， 因 此 ， 神 经 网 络 在 理想 意义 下 可 以 处 理 任意 的 复杂 问题 。 

下 面 列 出 了 常用 的 激活 函数 及 其 示意 图 。 

1. Sigmoid 函数 

Sigmoid 又 叫 作 Logistic 激活 函数 ， 它 将 实数 映射 到 (0，1) 区 间 内 ， 还 可 以 在 预测 概率 的 输 
出 层 中 使 用 。 该 函数 的 数学 表达 式 为 























A/(x) = 





(11-34) 


l+e 





其 函数 曲线 如 图 11-6 所 示 。 

Sigmoid 函数 有 如 下 3 个 主要 缺点 。 

1) 梯度 消失 。Sigmoid 函数 在 趋 近 0 或 1 的 地 方 变 得 了 
坦 ， 即 其 梯度 趋 近 于 0。 在 神经 网 络 中 ， 把 输出 接近 0 或 1 也 
这 些 神 经 元 称 为 饱和 神经 元 。 网 络 中 使 用 Sigmoid 激活 函数 进 
行 反 向 传播 时 ， 这 些 饱和 神经 元 的 权重 不 会 更 新 ， 与 此 类 神 
经 元 相连 的 神经 元 的 权重 也 更 新 得 很 慢 ， 该 问题 被 称 为 梯度 一 一 4 一 到 
消失 。 因 此 ， 如 果 一 个 网 络 中 包含 很 多 个 都 处 于 饱和 状态 的 图 11.6 Sigmoid 函数 示意 图 
Sigmoid 神经 元 ， 那 么 该 网 络 将 无 法 进行 反 向 传播 。 
2) 不 以 零 为 中 心 。Sigmoid 输出 不 以 零 为 中 心 。 
3) 计算 成 本 高 晶 。 指 数 函 数 与 其 他 非 线 性 激活 函数 相 比 ， 计 算 成 本 高 昂 。 
2. Tanh 函数 
Tanh 激活 函数 又 叫 作 双 曲 正切 激活 函数 ， 其 数学 表达 式 为 


1.0 





忆 





























pe = (11-35) 
i 











其 函数 曲线 如 图 11-7 所 示 。 

它 将 数据 压缩 至 ( -1，1) 的 区 间 内 。 与 Sigmoid 不 同 ，Tanh 函数 的 输出 以 零 为 中 心 。 在 实 
践 中 ，Tanh 函数 的 使 用 优先 度 高 于 Sigmoid 函数 。 负 数 输 入 被 当 作 负 值 ， 零 输入 值 的 映射 接近 
零 ， 正 数 输入 被 当 作 正 值 。 从 图 中 可 以 看 出 ，Tanbh 函数 也 存在 梯度 消失 的 问题 。 

3. ReLU 函数 

为 了 解决 梯度 消失 问题 ， 提 出 了 修正 线性 单元 (Rectified Linear Unit，ReLU) ， 该 函数 明显 
优 于 前 面 两 个 函数 ， 是 现在 使 用 最 广泛 的 函数 。 该 函数 的 数学 表达 式 为 
f(x) =max(0,x) (11-36) 


























其 函数 曲线 如 图 11-8 所 示 。 
该 函数 当 输入 * <0 时 ， 输 出 为 0， 当 x >0 时 ， 输 出 为 *。 它 使 得 网 络 更 快 地 收敛。 它 在 正 
区 域 (x >0 时 ) 不 会 饱和 ， 即 可 以 对 抗 梯度 消失 问题 ， 因 此 神经 元 至 少 在 一 半 区 域 中 不 会 把 所 
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有 零 进 行 反 向 传播 。 由 于 使 用 了 简单 的 阅 值 化 ，ReLU 计算 效率 很 高 。 但 是 ，ReLU 神经 元 也 存 
在 如 下 一 些 缺 点 。 






































10 
5 
L 上 L | 
-10 -5 0 0 10 
图 11-7 Tanh 函数 示意 图 图 11-8 ReLU 少数 示意 图 














1) 不 以 零 为 中 心 。 和 Sigmoid 激活 函数 类 似 ，ReLU 函数 的 输出 不 以 零 为 中 心 。 

2) 前 向 传导 过 程 中 ， 如 果 % <0， 则 神经 元 保持 非 激活 状态 ， 且 在 后 向 传导 中 存在 梯度 消失 
问题 。 

人 工 神经 网 络 的 工作 包括 两 个 阶段 ， 分 别 为 训练 期 和 验证 期 。 训 练 期 是 网 络 根据 给 定 的 样 
本 ,不 断 优化 调整 神经 元 的 参数 ( 即 神经 元 的 连接 权重 ) 。 验 证 期 是 将 需要 测试 的 样本 输入 已 训 
练 完成 的 神经 网 络 ， 由 神经 网 络 给 出 相应 的 结果 。 


11.3.2 前 馈 神 经 网 络 


前 馈 神经 网 络 的 每 个 神经 元 接受 前 一 级 输入 ， 并 输出 到 下 一 级 ， 层 间 无 反馈 。 

1. 感知 器 

最 简单 的 前 馈 网 络 在 1958 年 由 Rosenblatt 等 人 提出 的 感知 器 (Perceptron， 也 称 为 感知 机 ) 
模型 。 它 是 一 种 两 层 神经 网 络 ， 即 输入 层 和 输出 层 。 输 入 层 接收 外 界 输入 信号 后 传递 给 输出 层 ， 
在 输出 层 对 输入 整合 量 进行 激活 函数 处 理 。 训 练 过 程 中 ， 其 权 值 w 的 更 新 策略 如 下 。 

设 训练 样本 集 为 系 = (x ,x ,… ,x,)" ,理想 的 输出 为 了 =(y,,y,,…,y,)" ,实际 输出 为 字 = (7,， 


和 有 

































































wi(t+1)=w(t) +Avw(i) 
(11-37) 
Aw; =7(y; —),)%; 
式 中 ,ne (0, 1) 称 为 学 习 率 。 
由 于 感知 需 只 拥有 一 层 功 能 神经 元 ， 致 使 其 学 习 能 力 非常 有 限 ， 只 能 处 理 一 些 简 单 的 线性 
可 分 问题 。 在 实际 中 遇 到 的 问题 通常 是 非 线 性 可 分 的 ， 因 此 ， 需 要 使 用 有 多 层 功 能 神经 元 的 网 络 
来 解决 。 将 输出 层 和 输入 层 之 间 的 一 层 神 经 元 ， 称 为 隐 层 、 隐 含 层 或 隐藏 层 。 这 种 网 络 结构 因为 
包含 多 个 隐藏 屋 ， 具 有 更 复杂 的 结构 和 更 强大 的 数据 处 理 能 力 。 在 多 层 网 络 中 ， 数 据 从 网 络 的 输 
入 层 传 向 网 络 的 输出 层 ， 每 层 神经 元 与 下 一 层 神 经 元 全 连接 ， 神 经 元 之 间 不 存在 同 层 连接 ， 也 不 
存在 跨 层 连接 ， 通 常 称 这 种 网 络 结构 为 前 馈 神 经 网 络 (Feedforward Neural Network ，FNN ) 。 三 层 
以 及 三 层 以 上 的 前 馈 神 经 网 络 通常 又 被 称 为 多 层 感 知 器 ( Multi- Layer Perceptron，MLP) 。 只 需 包 
含 隐 层 ， 就 可 以 称 为 多 层 网 络 。 图 11-9 所 示 为 包含 一 个 隐藏 层 的 前 馈 神 经 网 络 。 
现 用 w, 表 示 输 入 层 中 第 个 神经 元 与 隐藏 层 中 第 7 个 神经 元 的 连接 权重 ，ww 表 示 隐 含 层 第 mm 
个 神经 元 与 输出 层 中 第 n 个 神经 元 的 连接 权重 ,6b, 表示 隐 含 层 第 ;个 神经 元 的 偏 置 ， 久 表示 输出 
层 第 i 个 神经 元 的 偏 置 ，f' 表示 隐 含 层 的 激活 函数 ， 表 示 输 出 层 的 激活 函数 ， 则 隐 含 层 每 个 神 
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经 元 的 表达 式 为 

i = hl Yo) k=1,2,.…,g (11-38) 
输出 层 每 个 神经 元 的 输出 为 

Y= f(D wl + by) j= 1 sm (11-39) 


三 层 前 馈 网 络 的 适用 范围 大 大 超过 二 层 前 馈 网 络 ， 
但 学 习 算 法 较为 复杂 ， 主 要 困难 是 中 间 的 隐 层 不 直接 和 
外 界 连接 ， 无 法 直接 计算 其 误差 。 为 了 解决 这 一 问题 ， 
提出 了 误差 反 向 传播 (Back Propagation，BP) 算法 ,其 
基本 思想 是 根据 输出 层 的 误差 逐 层 反 向 估计 隐 含 层 的 输 ， 输入 层 隐 含 层 输出 层 
出 误差 ， 进 而 调整 每 个 隐 含 层 的 连接 权重 。BP 算法 是 图 11.9 含 一 个 隐 含 层 的 前 馈 神 经 网 络 
一 种 监督 学 习 算法 ,不 仅 适 用 于 多 层 前 馈 神 经 网 络 ， 还 
可 用 于 其 他 类 型 的 神经 网 络 ， 例 如 递归 神经 网 络 的 训练 等 ， 但 通常 说 的 BP 网 络 指 的 是 采用 BP 
算法 进行 训练 的 前 馈 神经 网 络 。 

BP 算法 的 主要 分 为 两 个 阶段 : 正 向 传播 阶段 ， 网 络 的 权重 是 固定 不 变 的 ， 输 入 信息 经 隐 含 
层 逐 层 处 理 ， 传 向 输出 层 ， 并 计算 出 实际 输出 ; 反 向 传播 ， 根 据 实际 输出 和 期 望 输出 求 出 误差 ， 
误差 信号 沿 原来 的 正 向 传输 时 的 连接 线路 返回 ， 根 据 梯 度 下 降 法 沿 误差 函数 的 负 梯 度 方向 ,， 逐 
一 修改 每 两 层 间 连 接 权重 ,通过 权重 的 不 断 调整 ， 使 得 网 络 的 输出 更 接近 期 望 输出 。 

BP 网 络 理论 基础 坚实 ， 物 理 概 念 清楚 ， 能 解决 非 线性 问题 的 输入 到 输出 的 映射 ， 有 较 强 的 
泛 化 能 力 ， 因 此 ， 在 神经 网 络 中 得 到 了 广泛 的 应 用 。 但 它 也 存在 一 些 不 足 : 它 是 一 种 基于 梯度 的 
优化 算法 ， 网 络 参数 一 般 采 用 随机 初始 化 ， 因 此 ， 在 优化 过 程 中 容易 陷入 局 部 极 小 值 ; 同时 ， 随 
着 网 络 的 层 数 以 及 复杂 度 的 增加 ， 训 练 时 间 长 ， 收 敛 速度 慢 。 

2. RBF 网 络 

前 馈 神 经 网 络 中 ， 还 有 一 种 网 络 较 为 常见 ， 那 就 是 径 向 
基 函 数 网 络 ， 简 称 RBF 网 络 。 这 种 网 络 只 有 一 个 隐 层 ， 隐 层 
单元 采用 径 向 基 函 数 作为 其 激活 函数 ， 输 入 层 到 隐 层 之 间 的 
权 值 固定 为 1， 输 出 节点 为 线性 求 和 单元 ， 隐 层 到 输出 节点 
之 间 的 权 值 可 调 ， 因 此 输出 为 隐 层 的 加 权 求 和 。 最 常用 的 径 
向 基 葡 数 为 高 斯 函数 ， 即 

x-el” 


flxsc)=e (11-40) 
式 中 ，c; 表示 核 函 数 中 心 ; o 为 核 函 数 的 宽度 参数 ， 用 于 控 
制 核 函数 的 径 向 作用 范围 。 在 RBF 网 络 中 ， 这 两 个 参数 往往 
是 可 调 的 。RBF 网 络 结构 如 图 11.10 所 示 。 图 11-10 RBF 网 络 结构 
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11. 3. 3 ” ”Hopfield 网络 


Hopfield 神经 网 络 是 1982 年 美国 物理 学 家 J. Hopfield 首先 提出 来 的 ， 是 一 种 反馈 神经 网 络 。 
与 前 馈 网 络 不 同 ， 前 馈 网 络 不 考虑 输出 与 输入 之 间 在 时 间 上 的 滞后 影响 ， 其 输出 与 输入 之 间 仅 
仅 是 一 种 映射 关系 。 而 Hopfield 网 络 采用 反馈 连接 ， 所 有 神经 元 之 间 相 互 连 接 ， 考 虑 输出 与 输入 
在 时 间 上 的 传输 延迟 ， 所 表示 的 是 一 个 动态 过 程 ， 需 要 用 差分 或 微分 方程 来 描述 。 同 时 ， 
Hopfield 网 络 权 值 对 称 ， 即 w = 由 ， 通 党 也 没有 自 反馈 ， 即 w =0。1984 年 ，Hopfield 设计 并 研 
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制 了 Hopfleld 网 络 模型 的 电路 ， 将 神经 元 用 运算 放大 顺 来 实现 ， 所 有 神经 元 的 连接 用 电子 线路 来 
模拟 ， 有 力 地 推进 了 神经 网 络 的 研究 。 

Hopfield 网 络 分 为 离散 Hopfield 网 络 和 连续 Hopfield 网 络 。 

最 早 提出 的 Hopfield 网 络 是 二 值 神 经 网 络 ， 神 经 元 的 输出 只 取 1 和 -1， 所 以 ， 称 为 离散 
Hopfield 神经 网 络 ( Discrete Hopfield Neural Network，DHNN ) 。 离 散 Hopfield 网 络 是 一 个 单 层 网 
络 ， 有 多 个 二 值 神 经 元 节点 ， 每 个 神经 元 的 输出 均 连 接 到 其 他 神经 元 的 输入 ， 因 此 ， 所 输出 的 离 
散 值 1 和 -1 分 别 表示 神经 元 处 于 激活 和 抑制 状态 。 整 个 网 络 有 两 种 工作 方式 : 即 异 步 〈 串 行 ) 
方式 和 同步 〈 并 行 ) 方式 。 所 谓 异 步 工 作 方式 ， 是 指 在 任 一 时 刻 ， 只 有 某 一 个 神经 元 状态 进行 
更 新 ， 其 他 神经 元 状态 保持 不 变 。 同 步 工 作 方式 是 指 在 任 一 时 间 ， 部 分 神经 元 或 者 全 部 神经 元 的 
状态 同时 改变 。 

离散 Hopfield 网 络 的 一 个 重要 应 用 是 联想 记忆 功能 。 要 想 实 现 联想 记忆 ， 反 馈 网 络 必 须 具 备 
如 下 两 个 条 件 。 

1) 网 络 能 收敛 到 稳定 的 平衡 状态 ， 并 以 其 作为 样本 的 记忆 信息 。 

2) 具有 回忆 能 力 ， 能 从 某 一 残缺 的 信息 回忆 起 所 属 的 完整 的 记忆 信息 。 

离散 Hopfield 网 络 实现 联想 记忆 的 过 程 分 为 两 个 阶段 : 学 习 记 忆 阶 段 和 联想 回忆 阶段 。 在 学 
习 记 忆 阶 段 ， 设 计 者 通过 某 一 设计 方法 确定 一 组 合适 的 权 值 ， 是 网 络 记忆 期 望 的 稳定 平衡 点 。 联 
想 回 忆 阶 段 则 是 网 络 的 工作 过 程 。 
连续 Hopfield 网 络 (Continuous Hopfield Neural Network，CHNN) 拓扑 结构 和 DHNN 的 结构 相 
同 。 不 同 之 处 在 于 其 激活 函数 不 是 阶 跃 函 数 ， 而 是 S 形 的 连续 函数 。 连 续 Hopfield 网 络 模型 可 和 
电子 线路 直接 对 应 ， 每 个 神经 元 可 由 一 个 正 反 向 输出 的 放大 器 来 模拟 。 在 连续 Hopfield 网 络 中 ， 
输入 和 输出 都 是 模拟 量 ， 各 神经 元 采用 同步 工作 方式 。 


11.3.4 卷 积 神经 网 络 


卷 积 神经 网 络 ( Convolutional Neural Network，CNN) 是 深度 学 习 中 应 用 较为 广泛 的 一 种 模 
型 。 深 度 学 习 是 机 器 学 习 研 究 领 域 的 一 个 新 的 分 支 ， 是 一 类 复杂 的 机 器 学 习 算 法 。 其 研究 的 目的 
在 于 建立 、 模 拟人 脑 的 神经 网 络 ， 并 模仿 人 脑 的 机 制 来 解释 如 图 像 、 声 音 和 文本 之 类 的 数据 。 

深度 学 习 的 概念 最 早 由 加 拿 大 多 伦 多 大 学 教授 Geoffrey Hinton 等 于 2006 年 提出 ， 指 基于 样本 
数据 通过 一 定 的 训练 方法 得 到 包含 多 个 层 的 深度 网 络 结构 的 机 需 学 习 过 程 。 深 度 学 习 之 所 以 被 
称 为 “深度 ” ， 是 相对 SVM 、 提 升 算法 ( Boosting) 、 最 大 焙 方 法 ， 以 及 只 含 单 隐 层 的 多 层 感 知 器 
等 “ 浅 层 学 习 ” 方 法 而 言 ， 其 实质 是 通过 搭建 具有 多 个 隐 层 的 学 习 模 型 ， 给 其 输入 海量 的 训练 
数据 ， 使 其 从 训练 数据 中 学 习 获 得 有 用 的 特征 ， 从 而 最 终 提升 分 类 或 预测 的 准确 性 。 因 此 ,“ 深 
度 模 型 ”是 手段 , “特征 学 习 ” 是 目的 。 通 过 深度 学 习 得 到 的 深度 网 络 结构 符合 神经 网 络 的 特 
征 ， 可 以 将 深度 网 络 看 成 是 深层 次 的 神经 网 络 ， 即 深度 神经 网 络 (Deep Neural Netwokk ，DNN ) 。 

不 同 于 传统 的 浅 层 学 习 ， 深 度 学 习 具 有 下 列 特点 。 

1) 模型 有 多 个 隐 层 ,一般 比 较 深 ,通常 有 几 十 层 ， 其 至 成 百 上 千 层 。 

2) 模型 能 够 从 训练 数据 中 自主 提取 特征 。 浅 层 学 习 依靠 人 工 经 验 抽 取样 本 特征 ， 网 络 模型 
学 习 后 获得 的 是 没有 层次 结构 的 单 层 特征 ， 模 型 的 输入 是 人 工 已 经 选取 好 的 特征 ， 模 型 只 用 来 
负责 分 类 和 预测 。 而 深度 学 习 通过 对 原始 数据 进行 逐 层 特征 变换 ， 将 数据 在 原 空 间 的 特征 表示 
变换 到 新 的 特征 空间 ， 自 动 地 学 习 得 到 层次 化 的 特征 表示 ， 将 原始 输入 逐 层 转化 为 浅 层 特征 、 中 
层 特征 、 高 层 特征 直至 最 终 的 任务 目标 。 

深度 学 习 因 为 层 数 的 增加 ， 导 致 需要 训练 的 参数 增多 ， 直 接 采 用 经 典 算法 如 BP 算法 进行 训 
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练 时 ， 因 为 误差 道 传播 需 经 过 多 层 ， 往 往 会 发 散 导 致 无 法 收敛 ， 从 而 导致 训练 出 的 网 络 效果 差 。 
为 了 解决 这 一 问题 ，Hinton 提出 使 用 无 监督 逐 层 预 训练 ， 再 进行 权 值 微调 的 方法 。 所 谓 预 训练 是 
指 每 次 只 训练 一 层 的 隐 层 节点 ， 训 练 时 将 上 一 层 的 输出 作为 当前 层 的 输入 ， 当 前 层 的 输出 作为 
下 一 层 的 输入 。 在 预 训练 全 部 完成 后 ， 再 对 整个 网 络 进行 微调 。 

同时 ,为 了 节省 训练 参数 ， 深 度 学 习 网 络 采用 权 值 共享 策略 。 即 一 组 神经 元 采用 相同 的 连接 权 
重 。 例 如 ， 给 定 一 张 输 入 图 片 ， 用 一 个 模板 卷 积 这 张 图 ， 模 板 里 面 的 各 个 元 素 的 值 就 叫 权 重 ， 因 为 
这 张 图 每 个 位 置 都 是 被 这 个 模板 卷 积 ， 所 以 每 次 卷 积 权 重 是 一 样 的 ， 也 就 是 共享 。 

即便 采用 了 上 述 措施 ， 面 向 实际 应 用 的 深度 学 习 网 络 需 要 估计 的 参数 量 仍 很 多 ， 甚 至 可 能 
达到 数 千 万 。 另 外 ， 为 了 避免 过 拟 合 ， 需 要 海量 训练 数据 。 两 方面 因素 释 加 ， 导 致 训练 一 个 模型 
耗 时 惊人 。 以 语音 识别 为 例 ， 目 前 工业 界 通常 使 用 样本 量 达 数 十 亿 ， 用 CPU 单机 需要 数 年 才能 
完成 一 次 训练 ， 因 此 ， 往 往 借 助 图 形 处 理 器 ( Graphics Processing Unit，GPU ) 来 加 速 ， 即 便 这 
样 ， 也 需要 数 周 才 能 完成 训练 。 当 然 ， 如 果 网 络 深度 小 ， 样 本 少 ， 训 练 时 间 可 能 几 小 时 或 者 几 天 
就 可 以 完成 。 

深度 学 习 凭借 大 数据 和 图 形 处 理 器 ， 正 有 力 地 推动 着 人 工 智 能 快速 向 前 发 展 。 下 面 介 绍 深 
度 学 习 中 广泛 应 用 的 卷 积 神经 网 络 模型 。 

1958 年 ，Hubel 和 Wiesel 对 猫 视觉 皮层 电 生 理 的 研究 激发 了 人 们 对 于 人 类 神经 系统 的 思考 ， 
Fukushima 受 此 启发 提出 了 卷 积 神经 网 络 的 模型 。 

与 传统 神经 网 络 不 同 的 是 ， 卷 积 神经 网 络 在 卷 积 阶段 使 用 了 局 部 感受 野 和 权 值 共享 策略 来 
减 小 网 络 参数 。 局 部 感受 野 (Local Receptive Field，LRF) 是 受到 生物 学 启发 ， 即 人 类 视觉 系统 
关注 局 部 区 域 来 处 理 信 息 ， 对 注意 力 范围 之 外 的 图 像 感受 较 弱 ， 因 此 神经 网 络 最 佳 的 方法 是 对 
局 部 图 像 进行 处 理 ， 最 后 把 之 前 处 理 过 的 局 部 数据 进行 倒 加 就 可 以 得 到 全 局 信息 。 该 技术 使 得 网 
络 能 够 容忍 输入 图 像 的 一 些 变形 ， 具 有 很 好 的 鲁 棒 性 ， 同 时 也 使 得 神经 元 的 连接 数 减少 ， 降 低 了 需 
要 训练 的 参数 。 在 卷 积 神经 网 络 中 ， 局 部 感受 野 的 大 小 等 同 于 卷 积 核 的 大 小 〈 比 如 说 5 x5)。 假 
设 有 一 幅 32 x32 的 图 像 ， 全 连接 时 ， 对 下 一 层 的 一 个 神经 元 来 说 ， 它 要 对 应 32 x 32 个 像素 点 ， 
即 一 个 神经 元 对 应 全 局 图 像 ， 因 此 ， 一 个 神经 元 就 有 32 x 32 个 参数 ( 如果 还 考虑 偏 置 参 数 ， 就 
需要 32 x32 +1 个 参数 ) 。 假 如 每 个 局 部 感受 野 为 5 x5， 每 个 神经 元 只 需要 和 5 x5 的 局 部 图 像 
连接 ， 这 样 一 个 神经 元 就 只 需要 5 x5 个 参数 。 

此 外 ， 卷 积 网 络 在 卷 积 层 后 面 引入 下 采样 层 ， 可 以 在 扩大 感受 野 的 同时 降低 网 络 的 参数 ， 实 
现 平 移 不 变性 。 权 值 共享 中 ， 可 以 把 卷 积 操作 理解 成 特征 提取 的 方式 ， 并 且 与 位 置 无 关 。 一 个 卷 
积 层 中 可 以 有 多 个 不 同 的 卷 积 核 ， 在 同一 个 卷 积 核 内 ， 所 有 的 神经 元 的 权 值 是 相同 的 ， 这 就 是 卷 
积 核 的 权 值 共享 ， 权 值 共 享 可 以 大 幅度 减少 神经 网 络 的 参数 ， 在 防止 过 拟 合 的 同时 又 降低 了 神 
经 网 络 模型 的 复杂 度 。 将 原始 数据 和 卷 积 核 卷 积 后 得 到 的 结果 称 为 特征 图 (Feature Map)。 仍 以 
上 述 的 32 x32 的 图 像 为 例 ， 当 卷 积 核 大 小 为 5 x5， 步 幅 为 1 ( 步 幅 指 的 是 卷 积 核 在 卷 积 图 像 时 ， 
每 次 在 图 像 上 滑动 跨越 的 像素 个 数 。 当 步 幅 为 1 时 ， 每 次 移动 一 个 像素 的 位 置 。 当 步 幅 为 2 时 ， 
每 次 移动 2 个 像素 。 以 此 类 推 。 步 幅 越 大 ， 卷 积 得 到 的 特征 图 就 越 小 ) 时 ， 可 得 特征 图 大 小 是 
28 x28。 也 就 是 说 ， 这 个 特征 图 对 应 有 28 x 28 个 神经 元 。 如 果 特 征 图 中 各 个 神经 元 之 间 权 值 共 
享 的 话 ， 则 特征 图 只 需要 5 x5 个 参数 。 

如 果 不 采 用 上 述 感受 野 和 权 值 共享 技术 ， 当 网 络 为 全 连接 时 ， 仅 仅 考 虑 两 层 网 络 的 情况 下 ， 
其 连接 个 数 为 (32 x32) x (28 x28) =802816。 此 时 需要 调节 的 参数 个 数 非常 多 ， 无 法 满足 高 效 
训练 参数 的 需求 。 

图 11-11 所 示 为 一 个 CNN 网 络 的 基本 结构 。 
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输入 图 像 


(1) 输入 层 





输入 层 是 即 送 入 网 络 的 输入 数据 ， 在 图 像 识 别 中 ， 就 是 一 幅 图 像 数据 矩阵 。 可 以 用 一 个 三 维 


和 矩阵 来 代表 一 幅 





卷 积 层 1 


汉人 


池 化 层 


卷 积 层 2 全 连接 层 1 全 连接 层 2 





\ 1/ \ 
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/\ 八 2 >” 分 
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总 二 
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/ . 一 = 一 = 
/\ 一 3 ee 
/ 八 | |， 
下 / 
1 池 化 层 2 


图 11-11 CNN 网 络 基 本 架构 


在 图 11-11 中 ， 卷 积 神经 网 络 模型 的 结构 分 为 输入 层 、 卷 积 层 、 池 化 层 、 全 连接 层 和 输出 
层 。 各 个 网 络 部 分 的 结构 的 功能 如 下 。 














图 像 ， 三 维和 矩阵 的 长 和 宽 代 表 岁 像 大 小 ， 三 维和 矩阵 的 深度 代表 图 像 的 通道 数 ， 比 





如 黑白 图 像 对 应 
(2) 卷 积 层 


卷 积 神经 网 络 的 卷 积 层 也 称 为 特征 提取 层 ， 它 往往 用 多 个 不 同 的 卷 积 核 ( 权重 


的 通道 数 为 1， 彩 色 








图 像 对 应 的 通道 数 为 3。 








呀 


参数 不 同 ) 


来 卷 积 ， 可 以 认为 不 同 的 卷 积 核 从 输入 数据 中 提取 的 特征 不 相同 。 输 入 数据 被 卷 积 核 卷 积 后 ， 再 
通过 激励 函数 后 得 到 的 结果 称 为 特 生 
进行 组 合 卷 积 得 到 。 卷 积 时 ， 对 应 的 感受 野 的 深度 必须 和 输入 图 像 的 深度 相同 ， 例 如 一 幅 彩 色 图 
像 ， 其 通道 数 为 3， 则 感受 野 的 深度 也 必须 为 3。 卷 积 时 ， 从 左上 角 开 始 ， 卷 积 核 的 元 素 ( 即 权 














重 ) 和 输入 特征 图 中 对 应 区 域 的 数据 对 应 相 乘 ， 然 后 累加 作为 输出 。 每 做 一 次 卷 积 ， 卷 积 核 就 
移动 到 下 一 次 卷 积 的 位 置 ， 移 动 距离 即 为 步 幅 。 卷 积 核 的 大 小 可 以 为 3 x3 或 者 5 x5 等 。 图 11- 
3 x3 的 卷 积 核 去 卷 











12 所 示 为 一 个 用 
置 量 ) 。 



































图 ， 每 个 特征 图 一 般 是 通过 上 一 层 一 个 或 多 个 输入 特征 图 




















只 5 x5 的 图 像 的 示意 图 〈 卷 积 步 幅 为 1， 卷 积 结果 不 考虑 偶 
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a) 输入 特征 图 


b) 卷 积 核 c) 输出 特征 图 
图 11-12 二 维 卷 积 示意 图 











也 可 以 称 为 下 采样 层 。 通 常 ， 在 卷 积 层 之 后 网 络 已 经 获得 了 数据 的 特征 ， 接 下 来 需要 选择 一 
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四 ) 数字 图 像 与 视频 处 理 


个 分 类 器 利用 这 些 特征 进行 分 类 。 如 果 利 用 所 提取 到 的 所 有 特征 来 训练 分 类 器 ， 不 仅 计 算 量 大 ， 
而 且 容 易 出 现 过 拟 合 的 情况 。 例 如 ， 对 于 一 幅 32 x32 像素 的 图 像 ， 卷 积 核 大 小 为 5 x5， 卷 积 核 个 数 
为 100 个 ， 卷 积 步 幅 为 1， 则 每 个 卷 积 核 和 图 像 进行 卷 积 得 到 (32 -5+1) x(32-5+1)= 
784 维 的 卷 积 特征 ， 一 共有 100 个 卷 积 核 ， 所 以 一 幅 图 像 最 终 会 得 到 784 x 100 =78400 维 的 卷 
积 特征 向 量 。 

为 了 解决 上 述 问题 ， 卷 积 神经 网 络 中 在 卷 积 层 后 面 加 入 了 池 化 层 ， 主 要 的 目的 就 是 在 保留 有 用 信 
息 的 基础 上 减少 数据 的 处 理 量 ， 加 快 网 络 的 训练 速度 。 它 不 改变 三 维 矩 阵 的 深度 ， 但 它 缩小 矩阵 的 大 
小 ， 可 以 认为 它 是 将 一 幅 分 辩 率 较 高 的 图 像 
转 为 分 辩 率 较 低 的 图 像 。 常 用 的 有 最 大 值 池 
化 和 平均 值 池 化 。 最 大 值 池 化 表示 下 采样 时 | 1 






















































































从 窗口 内 选取 最 大 的 值 作为 输出 ， 平 均值 池 i 最 大 值 池 化 
化 表示 将 窗口 内 所 有 元 素 的 平均 值 作为 输 
出 。 图 11-13 所 示 为 当下 采样 选取 2 x2 的 窗 | 11 Se et 


平均 值 池 化 


38 | 39 se 








口 ， 窗 口 之 间 没 有 重 秋 时， 最 大 值 池 化 和 平 

均值 池 化 的 结果 。 图 中 每 个 单元 格 代 表 一 个 

像素 ， 里面 的 数字 表示 当前 像素 的 值 。 
池 化 操作 是 一 种 非 线 性 下 采样 操作 ， 图 11.13 “最 天 值 池 化 和 平均 值 池 化 示意 

可 以 使 特征 更 加 重 棒 并 且 具 有 平移 不 变 

生 。 同 时 ， 下 采样 后 特征 图 的 尺寸 减 小 ， 网 络 需 要 处 理 的 数据 量 大 大 降低 ， 加 快 网 络 的 训练 
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(4) 全 连接 层 

一 般 卷 积 神经 网 络 的 最 后 儿 层 为 全 连接 层 ， 一 般 由 1 ~3 层 组 成 ， 神 经 网 络 最 后 一 层 的 神经 
元 个 数 和 输入 数据 的 类 别 数 相同 。 经 过 几 轮 卷 积 层 和 池 化 层 之 后 ， 可 以 认为 图 像 中 的 信息 已 经 
转变 为 高 度 抽 象 特征 。 卷 积 层 和 池 化 层 可 看 成 自动 图 像 特 征 提 取 的 过 程 。 在 特征 提取 完成 后 ， 需 
要 全 连接 层 完成 分 类 任务 。 

(5) 输出 层 

输出 层 的 神经 元 节点 需要 根据 具体 任务 而 进行 具体 设 定 。 对 于 图 像 分 类 任务 ， 网 络 的 输出 
层 为 一 个 分 类 器 ， 借 助 Softmax 分 类 器 可 以 得 到 当前 样 例 属 于 不 同类 别 的 概率 分 布 。 


11.4 基于 LeNet 网 络 的 手写 数字 识别 


LeNet-5 模型 是 Yann LeCun 教授 于 1998 年 提出 的 卷 积 神经 网 络 ， 它 被 成 功 应 用 于 手写 数字 
识别 。LeNet-5 模型 包括 输入 层 在 内 共有 8 层 ， 其 框架 如 图 11-14 所 示 。 

第 一 层 输 入 层 是 32 x32 大 小 的 图 像 。 

第 二 层 C1 层 为 卷 积 层 ， 包 括 6 个 特征 图 ， 卷 积 核 大 小 为 5 x5， 每 个 特征 图 尺寸 为 (32 -5 +1) x 
(32 -5+1) =28 x28， 即 表示 特征 图 中 包含 有 28 x28 =784 个 神经 元 ， 每 个 神经 元 分 别 和 输入 层 
的 5 x5 大 小 的 区 域 连接 。 因 此 ， 将 权重 和 偏 置 参数 都 统计 ， 此 层 共 有 (5 x5 +1) x6 =156 个 参 
数 。 两 层 之 间 的 连接 数 为 156 x784 = 122304 个 。 

第 三 层 S2 为 下 采样 层 ， 有 6 个 14 x14 大 小 的 特征 图 ， 每 个 特征 图 的 每 个 神经 元 都 和 C1 层 
对 应 的 特征 图 的 2 x2 区 域 相连 接 。S2 层 中 的 每 个 神经 元 由 这 4 个 输入 相 加 ， 乘 以 权重 ， 再 加 上 
偏 置 参数 ， 将 结果 通过 sigmoid 函数 激活 后 得 到 。S2 的 每 个 特征 图 有 14 x 14 个 神经 元 ， 参 数 个 
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数 为 2 





C3 卷 积 层 C5 卷 积 层 


C1l 卷 积 层 S4 下 采样 层 F6 全 连接 层 





















图 11-14 用 于 手写 数字 识别 的 LeNet 网 络 模型 框架 








x6=12 个 ， 连 接 数 为 (4+1) x (14 x14) x6 =5880 个 。 





第 四 层 C3 层 为 卷 积 层 ， 有 16 个 特征 图 ， 采用 5 x5 的 卷 积 核 ， 计 算 C3 的 特征 图 的 神经 元 个 





数 为 (14 -5+1) x (14 -5$+1) =10x10。C3 层 的 训练 参数 个 数 为 (5 x5 x3 +1) x6+ (5x5x 


4+1) 


x9+(5x5x6+1) xl=1516 个 ， 连 接 数 为 151600 个 。 


第 五 层 S4 为 下 采样 层 。 有 16 个 5 x5 的 特征 图 组 成 。 每 个 神经 元 和 C3 中 特征 图 的 2 x2 区 
域 相连 。 参 数 有 2 x16 =32 个 ， 连 接 数 为 2000 个 。 





A 




















第 六 层 C5 是 卷 积 层 ， 使 用 5 x5 的 卷 积 核 。 每 个 特征 图 有 1 个 神经 元 。 每 个 神经 元 和 S4 层 
的 全 部 16 个 特征 图 的 5 x5 的 区 域 全 连接 。C5 层 共 有 120 个 特征 图 ， 参数 和 连接 数 都 是 
48120 个 。 


























第 七 层 F6 为 全 连接 层 ， 有 84 个 特征 图 ， 每 个 特征 图 只 有 一 个 神经 元 和 C5 层 全 连接 ， 故 有 


(1 x1x120 +1) x84=10164 个 参数 和 连接 。F6 层 计算 输 入 向 量 和 权重 向 量 之 间 的 点 积 和 偏 置 ， 
之 后 将 其 传递 给 Sigmoid 函数 来 计算 神经 元 。 


AAA 
家 
































八 层 为 输出 层 ， 也 是 全 连接 层 ， 共 有 10 个 节点 ， 分 别 代表 数字 0 ~9， 采 用 径 癌 基 凤 数 的 








网 络 连 





11.s 





接 方式 。 此 层 共 有 84 x 10 = 840 个 参数 和 连接 。 


MATLAB 编程 实例 





【 例 11-2】 利 用 MATLAB 自 带 的 Fisheriris ( 芒 尾 花 ) 数据 集 ， 来 识别 花 的 种 类 。 


解 : 





该 数据 集 共 有 150 组 数据 信息 ， 由 药 尾 属 植物 的 三 种 花 Setosa 、Versicolor 和 Virgini- 

















ca 所 组 成 ， 每 一 种 植物 有 50 组 数据 。 每 种 花 记 录 4 种 特征 ， 分 别 是 花 葛 的 长 度 、 花 要 的 宽度 、 


花 汶 的 
和 矩阵 表 
具 





长 度 、 花 办 的 宽度 ， 用 150 x4 大 小 的 meas 矩阵 来 存储 ， 男 外 用 大 小 为 150 xl 的 species 
示 对 应 的 种 类 。 
体 代 码 如 下 。 

clear; 

% 加 载 数据 集 ,得 到 meas 和 species 和 矩阵 


load fisheriris 


% 取 出 meas 矩阵 中 第 一 列 和 第 二 列 (为 方便 实验 ,只 取 前 两 列 特征 ) 


meas = [meas(: ,1), meas(: ,2)|]; 








% 分 别 选取 Setosa 类 和 Versicolor 类 前 40 组 作为 训练 数据 ,后 10 组 作为 测试 数据 
trainData =[ (meas(1:40,:));(meas(51:90,: ))]; 

trainType = [ (species(1:40));(species(51:90))]; 

testData = [ (meas(41:50,:));(meas(9-1:100,: ))]; 
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% 使 用 训练 数据 ,对 SVM 模型 进行 训练 
svmStruct = svmtrain(trainData, trainType, 'kernel_function', 'rbf' , 'showplot' ,true); 
% 使 用 测试 数据 ,得 到 识别 结果 


result = svmclassify( svmStruct, testData, 'showplot' ,true ) ; 
了 3? 及 E 3? Ej 





























% 正确 的 识别 结果 为 tueType ,实验 测试 的 识别 结果 为 result 
trueType = | (species(41:50));(species(9—1:100))]; 
和 计算 分 类 精度 
tureNum =0; 
for i=(1:20) 

if stremp( result(i), trueType(i)) 

tureNum = tureNum +1; 

end 
end 
fprintf( ' 识 别 正确 率 为 :% fn' ,tureNum/20); 

从 输出 可 以 看 出 ， 此 时 识别 正确 率 为 0.95。 


11.6 小 结 


本 草 首 先 介绍 了 图 像 识 别 系统 的 基本 组 成 ,包括 图 像 获 取 、 预 处 理 、 特 征 提 取 、 分 类 决策 等 
模块 。 接 着 讲述 统计 学 习 方 法 ,介绍 了 经 验 风险 最 小 化 和 结构 风险 最 小 化 的 含义 。 然 后 ， 重 点 讲 
解 了 SVM 分 类 絮 ， 包 括 最 优 超 平面 、 支 持 疝 量 、 核 函数 等 概念 。 然 后 ， 介 绍 人 工 神经 网 络 ， 包 
括 神经 元 模型 、 感 知 絮 模型、 前 馈 网 络 、BP 算法 等 。 最 后 ， 介 绍 了 深度 神经 网 络 ， 重 点 阐述 了 
卷 积 神经 网 络 的 结构 组 成 ,阐述 了 感受 野 、 权 值 共享 、 卷 积 以 及 池 化 等 概念 。 




















11.7 习题 


. 请 画 出 人 工 神 经 元 模型 ， 并 简 述 其 和 生物 神经 元 是 如 何 类 比 的 ? 

.SVM 分 类 方法 中 ， 核 函数 的 作用 是 什么 ? 

. 前 馈 神 经 网 络 有 哪些 特征 ? 

. 简 述 BP 算法 的 基本 思想 。 

. 激活 函数 的 作用 是 什么 ? 画 出 Sigmoid 、Tanh 以 及 ReLU 激活 函数 的 曲线 。 

. 请 画 出 CNN 的 网 络 结构 ， 并 亲 述 各 个 模块 的 作用 。 

. 连续 Hopfield 网 络 和 离散 Hopfield 网 络 的 激活 函数 有 什么 区 别 ? 

. 术语 “深度 学 习 ” 中 的 “深度 ” 指 什么 含义 ? 与 浅 层 学 习 相 比 ， 深 度 学 习 有 哪些 不 同 ? 
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附录 缩 略 语 英 汉 对 照 


Advanced Audio Coding， 高 级 音频 编码 
Alternating Curent， 交 流 

Active Contour Model， 主 动 轮廓 模型 
Analog/ Digital Conversion ， 模 拟 / 数 字 转 换 
Artificial Neural Network ， 人 工 神 经 网 络 
Application Program Interface ， 应 用 程序 接口 
Advanced Streaming Format ， 高 级 流 格式 
Application Specific Integrated Circuit， 专 用 
Arbitrary Slice Order， 任 意 宏 块 条 顺序 
Asynchronous Transfer Mode， 异 步 传输 模式 














让 





成 电路 








Advanced Television System Committee，( 美 国 ) 高 高 级 电视 制式 委员 会 

















Advanced Television ， 高 级 电视 

Advanced Video Coding， 高 级 视频 编码 

Audio Video Interleaved， 音 频 视 频 交 错 (格式 ) 

Audio Visual Object， 音 视 对 象 

Audio Video coding Standard， 数 字音 视频 编码 标准 
Additive White Gasussian Noise， 加 性 高 斯 白 噪 声 
Adaptive Weighting Quantization ， 图 像 级 自 适应 加 权 量 化 
British Broadcasting Corporation ， 英 国 广播 公司 

Block Match Algorithm ， 块 匹配 算法 

Block- Matching and 3D filtering， 块 匹配 三 维 滤波 

Band Offset， 带 状 偏 移 
Back Propagation， 反 向 传播 
Context Adaptive Binary Arithmetic Coding， 上 下 文 自 适应 的 二 







































































进 制 算术 编码 


Context Adaptive Variable Length Coding， 上 下 文 自 适 应 的 可 变 i 


Coding Block ， 编 码 块 

Context- Based Arithmetic Coding， 基 于 上 下 文 的 算术 编码 
Content-based Image Retrieval， 基 于 内 容 的 图 像 检 索 
Content-based Retrieval ， 基 于 内 容 的 检索 

Charge Coupled Device ， 电 和 荷 耦合 器 件 









































Consultative Committee on International Radio， 国 际 无 线 电 咨 询 委员 会 


Consultative Committee on International Telegraph and Telephone, 


Compact Disc， 数 字 激 光 唱 盘 

Compact Disc Read- Only Memory， 光 盘 只 读 存 储 需 
Continuous Hopfield Neural Network ， 连 续 Hopfield 网 络 
Common Intermediate Format， 通 用 Wi 
Cyan，Magenta,， Yellow， 青 、 品 红 、 黄 (彩色 空间 ) 
Convolutional Neural Network ， 卷 积 神经 网 络 

Contrast Sensitivity Function ， 对 比 敏感 度 函 数 


国际 





电报 电话 咨询 委员 会 
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CTB Coding Tree Block ， 编 码 树 块 

CTU Coding Tree Unit， 编 码 树 单元 

CRT Cathode Ray Tube， 阴 极 射 线 管 

CU Coding Unit， 编 码 单 元 

CW-SSIM Complex Wavelet Structure Similarity， 复 小 波 域 结构 相似 性 
DBF DeBlocking Filter， 去 方块 效应 滤波 器 

DC Direct Current ， 直 流 

DCT Discrete Cosine Transform ， 离 散 余 弦 变 换 

DFT Discrete Fourier Transform ， 离 散 傅 里 叶 变 换 

DHNN Discrete Hopfield Neural Network ， 离 散 Hopfield 神经 网 络 
DLP Digital Light Processing， 数 字 光 处 理 

DNN Deep Neural Network ， 深 度 神 经 网 络 

DOM Document Object Model ， 文 档 对 象 模型 

DPCM Differential Pulse Code Modulation ， 差 分 脉冲 编码 调制 
DPM Deformable Part Model ， 可 变形 部 件 模型 

DSCQS Double Stimulus Continuous Quality Scale， 双 刺激 连续 质量 尺度 
DST Discrete Sine Transform ， 离 散 正 弦 变 换 

DVB Digital Video Broadcasting ， 数 字 视 频 广播 

DVD Digital Versatile Disc， 数 字 通 用 光盘 

DWT Discrete Wavelet Transform ， 离 散 小 波 变 换 

EBCOT Embedded Block Coding with Optimized Truncation ， 优 化 截断 做 入 式 块 编码 
EBU European Broadcasting Union ， 欧 洲 广播 联盟 

EL Enhancement Layer， 增 强 层 

EO Edge Offset， 边 缘 偏 移 

ERM Empirical Risk Minimization， 经 验 风 险 最 小 化 

ES Elementary Stream， 基 本 码 流 

ES Entropy Slice， 人 条 带 

FMO Flexible Macroblock Ordering， 灵 活 的 宏 块 排序 

FNN Feedforward Neural Network ， 前 馈 神 经 网 络 

GGD Generalized Gaussian Distribution ， 广 义 高 斯 分 布 

GIF Graphics Interchange Format， 图 形 交 换 格式 

CSM Gaussian Scale Mixture， 高 斯 尺度 混合 

HDTV High Definition Television ， 高 清晰 度 电 视 

HEVC High Efficiency Video Coding， 高 效 视频 编码 

HL High Level， 高 级 

HOG Histogram of Oriented Gradient, 方向 梯度 直方 图 

HP High Profile， 高 类 

HTML Hyper Text Markup Language， 超 文本 标记 语言 

HTTP Hypertext Transfer Protocol ， 超 文本 传输 协议 

HVS Human Visual System， 人 类 视觉 系统 

IC Integrated Circuit， 集 成 电路 

IDCT Inverse Discrete Consine Transform ， 离散 余弦 逆 变 换 

IDR Instantaneous Decoder Refresh， 即 时 解码 右 刷 新 

IEC International Electrotechnical Commission ， 国 际 电工 委员 会 
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IP 
IPTV 
IQA 
IQI 
ISDN 
ISO 
ITU 
ITU-R 
ITU-T 


JVT 
JBIC 
JCT-VC 
JPEC 
JTC 
K-SVD 
LCD 
LCoS 
LCU 

LL 

LSB 
MAP 
MBAFF 
MC 

ME 
MIME 
ML 
MLE 
MLP 
MOS 
MP 
MPEG 
MSB 
MSE 
MSR 
MSRCR 
MS-SSIM 
MTU 
MUSE 
MV 
MVF 
NAL 
NCCF 
NHK 





Internet Protocol ， 因 特 网 协议 

Internet Protocol Television ， 交 互 式 网 络 电视 
Image Quality Assessment， 图 像 质量 评价 
Image Quality Index， 图 像 质 量 指标 
Integrated Services Digital Network ， 综 合 业 务 数字 网 
International Organization for Standardization ， 国 际 标准 化 组 织 




















International Telecommunications Union ， 国 际 电 信 联 盟 



































International Telecommunication Union- Radiocommunication sector， 国 际 电信 联盟 无 线 电 通信 部 








International Telecommunications Union-Telecommunication standardization sector， 国 际 电 信 联 


盟 电信 标准 化 部 

Joint Video Team， 联 合 视频 工作 组 

Joint Bi-level Image Experts Group ， 联 合 二 值 图 像 专家 组 

Joint Collaborative Team on Video Coding， 视 频 编 码 联合 协作 小 组 
Joint Photographic Experts Group ， 联 合 图 片 专家 组 

Joint Technical Committee ， 联 合 技术 委员 会 

K-Singular Value Decomposition ，K- 奇异 值 分 解 

Liquid Crystal Display， 液 唱 显 示 需 

Liquid Crystal on Silicon ， 硅 基 液 
Largest Coding Unit， 最 大 编码 单 
LowLevel， 低 级 

Least Significant Bit， 最 低 有 效 位 

Maximum A-Posteriori ， 最 大 后 验 概率 

Macro- block level Adaptive Frame/Field， 宏 块 级 自 适应 帧 / 场 

Motion Complement， 运 动 补偿 

Motion Estimation, 运动 估计 

Multipurpose Internet Mail Extension ， 多 用 途 Internet 邮件 扩展 (协议 ) 
Main Level， 主 级 

Maximum Likelihood Estimation， 极 大 似 然 估计 

Multi- Layer Perceptron ， 多 层 感知 需 

Mean Opinion Score， 平 均 主 观 意见 分 

Main Profile ， 主 类 

Moving Picture Experts Group ， 运 动 图 像 专家 组 

Most Significant Bit， 最 高 有 效 位 

Mean Squared Error， 均 方 误 差 

Multi- Scale Retinex， 多 尺度 Retinex 

Multi- Scale Retinex with Color Restoration ， 带 颜色 恢复 的 多 尺度 Retinex 
Multi-Scale Structure Similarity， 多 尺度 结构 相似 性 

Maximum Transmit Unit， 最 大 传输 单元 

Multiple Sub- Nyquist Sampling Encoding， 多 重 亚 奈 奎 斯 特 采 档 
Motion Vector， 运 动 矢量 

Motion Vector Field4， 运 动 矢量 场 

Network Abstraction Layer， 网 络 抽象 层 

Normalized Cross Correlation Function， 归 一 化 互相 关 函 数 
日 本 广播 协会 
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NLM Non-Local Mean， 非 局 部 均值 

NSS Natural Scene Statistics ， 自 然 场景 统计 特性 

NTSC National Television System Committee ， 国 家 电视 制式 委员 会 
OMP Orthogonal Matching Pursuit， 正 交 匹 配 追 踪 

PAFF Picture level Adaptive Frame/Field， 图 像 级 自 适应 帧 / 场 
PAL Phase Alternating Line， 逐 行 倒 相 

PB Prediction Block ， 预 测 块 

PCM Pulse Code Modulation ， 脉 冲 编 码 调制 

PDP Plasma Display Panel ， 等 离子 体 显 示 器 

PNC Portable Network Graphics ， 便 携 式 网 络 图 形 

PPS Picture Parameter Set， 图 像 参 数 集 

PS Program Stream， 节 目 码 流 

PSNR Peak Signal-to- Noise Ratio， 峰 值 信 噪 比 

PU Prediction Unit， 预 测 单元 

QCIF Quarter Common Intermediate Format ， 四 分 之 一 通用 中 间 格 式 
QP Quantization Parameter, 量化 参数 

RBF Radial Basis Function， 径 向 基隆 数 

RDO Rate Distortion Optimization ， 率 失真 优化 

RDOQ Rate Distortion Optimized Quantization ， 率 失真 优化 的 量化 
RIFF Resource Interchange File Format， 资 源 交 换文 件 格 式 

RLE Run-Length Encoding， 游 程 编码 

RTP Real-time Transport Protocol ， 实 时 传输 协议 

SAD Sum of Absolute Difference， 绝 对 误差 和 

SAO Sample Adaptive Offset， 样 值 自 适 应 偏 移 

SCU Smallest Coding Unit， 最 小 编码 单元 

SDTV Standard Definition Television ， 标 准 清 晰 度 电视 

SECAM Séquential Couleur Avec Mémoire， 顺 序 传送 彩色 信号 与 存储 复 用 
SIF Standard Input Format， 标 准 输 入 格式 

SIFT Scale- Invariant Feature Ttransform, 尺度 不 变 特征 变换 
SMPTE Society of Motion Picture & Television Engineers，( 美 国 ) 电影 电视 工程 师 协会 
SPS Sequence Parameter Set， 序 列 参 数 集 

SRM Structural Risk Minimization ， 结 构 风 险 最 小 化 

SSIM Structure Similarity， 绪 构 相 似 性 

SSR Single Scale Retinex， 单 尺度 Retinex 

SVM Support Vector Machine， 支 持 向 量 机 

SVG Scalable Vector Graphics ， 可 缩放 的 矢量 图 形 

TCP Transmission Control Protocol ， 传 输 控 制 协议 

TIFF Tag Image File Format， 标 记 图 像 文件 格式 

TNNR Truncated Nuclear Norm Regularization ， 截 断 核 范 数 正 则 化 
TS Transport Stream， 传 送 码 流 

TU Transform Unit， 变 换 单元 

UDP User Datagram Protocol ， 用 户 数据 报 协议 

UHDTV Ultra High Definition Television， 超 高 清晰 度 电 视 

VBR Variable Bit Rate， 可 变 比特 率 
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VCD 
VCEG 
VCL 
VGA 
VLC 
VLSI 
VO 
VOD 
VQA 
VQEG 
WNNM 
WPP 
XML 


Video Compact Disk ， 视 频 高 密度 光盘 
Video Coding Experts Group ， 视 频 编 码 专家 组 


Video Coding Layer， 视 频 编 码 层 
Video Graphics Array， 视 频 图 形 阵列 





Variable Length Coding， 可 变 长 度 编码 


Very Large Scale Integrated circuit， 超 大 规模 自 


Video Object， 视 频 对 象 





7 
eh 
[Eng 
SS 
ey 

















Video On Demand， 视 频 点 播 /点 播 电视 
Video Quality Assessment， 视 频 质 量 评价 
Video Quality Experts Group ， 视 频 质 量 专家 组 








Weighted Nuclear Norm Minimization, 


加 权 核 范 数 最 小 化 





Wavefront Parallel Processing， 波 前 并 行 处 理 
eXtensible Markup Language ， 可 扩展 标记 语言 
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